大数据生态#HADOOP
Sowhat胜
这个作者很懒,什么都没留下…
展开
-
HIVE处理数据时产生小文件的原因和解决方案
一、小文件产生的原因1.往动态分区表插入数据时,会插入大量小文件2.reduce的数量设置的较多,到reduce处理时,会分配到不同的reduce中,会产生大量的小文件3.源数据文件就存在大量的小文件二、大量小文件的影响1.从Hive的角度看,小文件会开很多map,一个map开一个JVM去执行,所以这些任务的初始化,启动,执行会浪费大量的资源, 严重影响性能。...转载 2020-01-02 17:13:59 · 4793 阅读 · 0 评论 -
HIVE的常规优化
优化一览表:hive查询操作优化-------group by 优化---------set hive.groupby.skewindata=true 如果是group by过程出现倾斜应该设置为true;set hive.groupby.mapaggr.checkintenval=1000000; 这个是group的键对应的记录条数超过这个值则会进行优化-----------join...原创 2019-10-30 15:24:58 · 161 阅读 · 0 评论 -
MapReduce的执行过程
MR的执行流程从大的步骤上大致分为三大步:一、AM(applicationMaster)的启动1.Client客户端向RM提交job任务申请,RM对任务进行检查,检查无问题后,向客户端返回作业文件的上传路径和jobid;2.客户端根据返回的路径将作业文件上传至HDFS,待准备就绪后向RM提交开启任务申请,RM开启一个container并与对应的NodeManager建立通信,在该con...原创 2019-10-23 15:20:30 · 196 阅读 · 0 评论