Hive
一片青叶
程序员之路
展开
-
Hive在M/R下运行机制
1.介绍 Hadoop的计算框架特性,在此特性下衍生出来的问题 数据量大不是问题,数据倾斜是个问题。 jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的。 sum,count,max,min等UDAF,不怕数据倾斜问题,hadoop在...原创 2020-04-30 11:43:34 · 240 阅读 · 0 评论 -
Hive手动环境搭建
一,搭建环境前的准备:Centos6.9,VMware,jdk1.7,hadoop-cdh5.3.6,hive-cdh5.3.6二,首先我们需要知道hive的默认metastore的存放数据库是:Derby数据库(这个数据库只允许一个用户连接),因此我们选择mysql数据库1.安装mysql数据库 1.1选择yum安装mysql的步骤 yumlist...原创 2018-12-06 17:51:45 · 164 阅读 · 0 评论 -
Hive中的四种表类型
一、Hive中四种表类型:受控表(内部表),外部表,分区表,分桶表二、详细介绍内部表,就是一般的表,前面讲到的表都是内布标,当表定义被删除的时候,表中的数据随之一并被删除。 外部表,数据存在与否和表的定义互不约束,仅仅只是表对hdfs上相应文件的一个引用,当删除表定义的时候,表中的数据依然存在。 创建外部表,external是外部表的关键字,也是和内部表有区别的地方create e...原创 2018-12-07 11:33:33 · 1945 阅读 · 0 评论 -
Hive的三种Join方式
Hive中就是把Map,Reduce的Join拿过来,通过SQL来表示。参考链接:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+JoinsCommon/Shuffle/Reduce JoinReduce Join在Hive中也叫Common Join或Shuffle Join如果两边数据量都很大,它会进行...转载 2018-12-10 13:37:30 · 203 阅读 · 0 评论 -
Hive大数据倾斜
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的...转载 2018-12-10 13:50:46 · 193 阅读 · 0 评论