AMY行致远-CSDN博客

转载 Hadoop/Spark相关面试问题总结

1、Hive中存放是什么？表。存的是和hdfs的映射关系，hive是逻辑上的数据仓库，实际操作的都是hdfs上的文件，HQL就是用sql语法来写的mr程序。2、Hive与关系型数据库的关系？没有关系，hive是数据仓库，不能和数据库一样进行实时的CURD操作。是一次写入多次读取的操作，可以看成是ETL工具。3、Flume工作机制是什么？核心概念是age

2017-06-14 21:22:31 385

转载用户画像深层解读

谈到“用户画像”，很多伙伴都不陌生，什么用户属性、用户行为张嘴就来，但是你真的弄懂了用户画像的意义与构建方法吗？用户画像有什么用？用户画像包括哪些方面？在做用户画像的时候我们应该注意些什么？今天就让姑婆来为你答疑解惑。一、首先，咱们还是来看看用户画像的定义用户画像是根据用户社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型。构建用户画像的核心工作即是给用户贴“标签”，

2017-06-12 23:12:40 1754

转载 BAT用户画像数据浅析

什么是用户画像：用户画像，又称人群画像，是根据用户人口统计学信息、社交关系、偏好习惯和消费行为等信息而抽象出来的标签化画像。构建用户画像的核心工作即是给用户贴“标签”，而标签中部分是根据用户的行为数据直接得到，部分是通过一系列算法或规则挖掘得到。直接得到的数据比较好理解，比如用户在网站或APP上主动填写和上传的数据，严格一些平台（比如电商平台）会要求用户上传身份证、学生证、驾驶证、银行卡等，这

2017-06-12 21:34:57 6006 1

转载经典大数据架构案例：酷狗音乐的大数据平台重构

本文是酷狗音乐的架构师王劲对酷狗大数据架构重构的总结。酷狗音乐的大数据架构本身很经典，而这篇讲解了对原来的架构上进行重构的工作内容，总共分为重构的原因、新一代的大数据技术架构、踩过的坑、后续持续改进四个部分来给大家谈酷狗音乐大数据平台重构的过程。眨眼就是新的一年了，时间过的真快，趁这段时间一直在写总结的机会，也总结下上一年的工作经验，避免重复踩坑。酷狗音乐大数据平台重构整整经历了一年时

2017-06-09 23:19:35 444

转载 hive内部表与外部表区别详细介绍

问题导读：1.创建内部表与外部表的区别是什么？2.external关键字的作用是什么？3.外部表与内部表的区别是什么？4.删除表的时候，内部表与外部表有什么区别？5.load data local inpath '/home/wyp/data/wyp.txt' into table wyp;的过程是什么样子的？6.磁盘，hdfs,hive表他们之间的过程是什么样子的？

2017-04-25 23:32:11 349

转载让你彻底明白hive数据存储各种模式

本帖最后由 pig2 于 2014-5-19 12:59 编辑问题导读1.hive数据分为那两种类型？2.什么表数据？3.什么是元数据？4.Hive表里面导入数据的本质什么？5.表、分区、桶之间之间的关系是什么？6.外部表和表的区别是什么？Hive的数据分为表数据和元数据，表数据是Hive中表格（table）具有的数据；而元数据是用来存储表的名字，表

2017-04-25 23:31:17 1515

转载十三年来，淘宝走过的大数据之路

2003年至今淘宝网从零开始飞速发展，走过了13个年头，支撑淘宝业务野蛮式生长背后是一套不断完善的技术平台，淘宝大数据平台，就是其中非常重要的一个组成部分，承担了数据采集、加工处理、数据应用的职责，淘宝大数据平台一路到今天，总共经历了三个大的阶段（如图1），不同阶段面临了不一样的挑战，随着我的理解回顾下这些年大数据所经历过的故事：图1 数据仓库平台发展三个阶段第一个阶段：RA

2017-04-22 23:30:54 3720

转载数据库设计步骤

目录总体设计过程需求分析概念结构设计逻辑结构设计数据库物理设计数据库实施数据库运行和维护总体设计过程数据库设计步骤:设计描述:数据库设计不同阶段形成的数据库各级模式:数据库设计的特点:需求分析分析和表达用户需求:首先把任何一个系统都抽象为:分解

2017-04-22 22:57:43 544

转载 Hadoop优化与调整

io.file.buffer.size　　Hadoop访问文件的IO操作都需要通过代码库。因此，在很多情况下，io.file.buffer.size都被用来设置缓存的大小。不论是对硬盘或者是网络操作来讲，较大的缓存都可以提供更高的数据传输，但这也就意味着更大的内存消耗和延迟。这个参数要设置为系统页面大小的倍数，以byte为单位，默认值是4KB，一般情况下，可以设置为64KB（65536byte

2017-04-18 20:43:26 325

转载 hive优化--增加减少map数

如何合并小文件，减少map数？假设一个SQL任务：Select count(1) from popt_tbaccountcopy_mes where pt = ‘2012-07-04’;该任务的inputdir /group/p_sdo_data/p_sdo_data_etl/pt/popt_tbaccountcopy_mes/pt=2012-07-04共有194个文件，其中很多是

2017-04-15 23:28:47 1597

转载 hive的查询注意事项以及优化总结 .

Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql，和传统关系型数据库有区别，所以需要去掉原有关系型数据库下开发的一些固有思维。基本原则：1：尽量尽早地过滤数据，减少每个阶段的数据量,对于分区表要加分区，同时只选择需要使用到的字段select ... from A

2017-04-15 23:22:33 293

转载 Hadoop 性能优化

Hive性能优化1.概述　　继续《那些年使用Hive踩过的坑》一文中的剩余部分，本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍。2.介绍　　首先，我们来看看Hadoop的计算框架特性，在此特性下会衍生哪些问题？数据量大不是问题，数据倾斜是个问题。jobs数比较多的作业运行效率相对比较低，比如即使有

2017-04-15 21:10:37 8931