hive之_shuffle过程浅谈

个人对shuffle 的理解

  1. 说到离线就离不开hive,说到hive就离不开对shuffle的理解,基于hdfs所打造的数据仓库,核心就是hive的shuffle过程,英译是洗牌
    ,整个过程也就是清洗重发的过程,map方法后,reduce方法之前。
    shuffle过程
    首先是inputsplit ,每个切片对应一个map(可以通过yarn去观察),map端首先对读入数据做按不同数据类型做分区,之后根据不同分区做排序(这里采用的快速排序),map过程中会有内存缓冲区(环形缓冲区)它的作用,在数据写入过程中,将数据存入内存从而达到减少IO开启的资源消耗,提高分区,排序的资源量(hive优化中提到map join小表在前存入内存也源于此处),当缓冲区的写入达到默认的0.8(80mb,可更改设置),将开启溢写将内容写入临时文件同时剩下的写入会继续写入到剩余0.2
    这整个过程中会产生大量临时文件,通过merge最后合并成一个文件,分区且有序(归并排序) 到这map端基本结束。(写入内存前可以通过开启 combine ,一般公司都会在map开启来达到减小数据量提高效率,实现的效果 : map的输出是 (key ,value ) ,combine 后输出自然减少了)。
    reduce端,是通过http协议抓取数据 (fetch),map跑完对呀reduce开始抓数,这里涉及到数据倾斜的问题(需要注意),reduce对数据同样通过 partition
    , sort (归并排序),整理好的数据最后做reduce算法。
  • 5
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值