Hive_一片青叶的博客-CSDN博客

Hive

关注

关注数：文章数：5 文章阅读量：2743 文章收藏量：7

作者: 一片青叶

程序员之路

展开

Hive在M/R下运行机制

1.介绍 Hadoop的计算框架特性，在此特性下衍生出来的问题数据量大不是问题，数据倾斜是个问题。 jobs数比较多的作业运行效率相对比较低，比如即使有几百行的表，如果多次关联多次汇总，产生十几个jobs，耗时很长。原因是map reduce作业初始化的时间是比较长的。 sum,count,max,min等UDAF，不怕数据倾斜问题,hadoop在...

原创 2020-04-30 11:43:34 · 240 阅读 · 0 评论
Hive手动环境搭建

一，搭建环境前的准备：Centos6.9，VMware，jdk1.7，hadoop-cdh5.3.6，hive-cdh5.3.6二，首先我们需要知道hive的默认metastore的存放数据库是:Derby数据库(这个数据库只允许一个用户连接)，因此我们选择mysql数据库1.安装mysql数据库 1.1选择yum安装mysql的步骤 yumlist...

原创 2018-12-06 17:51:45 · 164 阅读 · 0 评论
Hive中的四种表类型

一、Hive中四种表类型：受控表（内部表），外部表，分区表，分桶表二、详细介绍内部表，就是一般的表，前面讲到的表都是内布标，当表定义被删除的时候，表中的数据随之一并被删除。外部表，数据存在与否和表的定义互不约束，仅仅只是表对hdfs上相应文件的一个引用，当删除表定义的时候，表中的数据依然存在。创建外部表，external是外部表的关键字，也是和内部表有区别的地方create e...

原创 2018-12-07 11:33:33 · 1945 阅读 · 0 评论
Hive的三种Join方式

Hive中就是把Map，Reduce的Join拿过来，通过SQL来表示。参考链接：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+JoinsCommon/Shuffle/Reduce JoinReduce Join在Hive中也叫Common Join或Shuffle Join如果两边数据量都很大，它会进行...

转载 2018-12-10 13:37:30 · 203 阅读 · 0 评论
Hive大数据倾斜

在做Shuffle阶段的优化过程中，遇到了数据倾斜的问题，造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和，优化是基于这些Counters得出的平均值，而由于数据倾斜的原因造成map处理数据量的差异过大，使得这些平均值能代表的价值降低。Hive的执行是分阶段的，map处理数据量的差异取决于上一个stage的reduce输出，所以如何将数据均匀的...

转载 2018-12-10 13:50:46 · 193 阅读 · 0 评论

Hive

作者: 一片青叶

Hive在M/R下运行机制

Hive手动环境搭建

Hive中的四种表类型

Hive的三种Join方式

Hive大数据倾斜