hadoop的shuffle过程

hadoop的shuffle分为map端的shuffle和reduce端的shuffle

1、map端的shuffle

如上图所示:

     maptask先调用InputFormat中的getRecordReader方法,获取RecordReader对象读取文件。读取进内存中,经过map方法中的context.write()写出,由OutPutCollector收集到数据,并存放到环形缓冲区中,当缓冲区中的数据达到80%时,系统启动一个线程,将缓冲区中的数据写入到磁盘中,形成spill文件。

    在写出之前,会进行两次排序,首先根据数据所属的partition进行分区(默认采用HashPartition,对key的hash值相同的分到同一个区),然后对分区内的数据根据key进行排序,可以通过自定义对象的compare方法重新规定排序规则,目的是为了实现负载均衡。如果定义了Combiner组件,然后会运行Combiner组件,在数据写出之前先进行一次聚合,可以减少数据量,最后写出到磁盘。map阶段可能会写出多个spill文件,最后会经过多路归并算法,将这些spill文件合并成一个文件。

2、reduce端的shuffle

如上图所示:

maptask执行完以后,ApplicationMaster会通知reducetask,reducetask从map端拉取数据,每个reduce回先对拉取到的数据进行归并排序合并文件,然后按照key进行分组,可以通过定义GroupingCompator组件重新定义分组规则,然后进行reduce处理,处理完以后输出到磁盘文件。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值