shuffle过程分析

shuffle过程分析

1.Shuffle的作用范围
数据从Map阶段输出到Reduce阶段的过程称之为shuffle;

2.Shuffle图解
在这里插入图片描述
如上图所示,shuffle并不是hadoop的一个组件,而是map阶段产生数据输出到reduce阶段取得数据作为输入之前的一个过程;

3.Shuffle的执行阶段流程
1.首先根据split,每个split会产生一个map task任务,map task的作用就是将<k1,v1>作为输入,输出为<k2,v2>;

2.输出的<k2,v2>会被放入缓冲区中,缓冲区的默认大小为100M(通过seq.io.sort.mb可以设置),当缓冲区的使用达到80%左右的时候会将缓冲区的数据写入到本地磁盘中,一直到Map将所有的数据都计算完成,最后会把内存缓冲区中剩余的数据一次性刷新到本地磁盘中;

3.如上图数据有3临时文件,每个临时文件有3个分区(如果代码指定了分区,实现Partitioner类),在所有数据都处理完毕的时候会将3个临时文件合并为一个文件(一个map任务最终只会产生一个文件,文件中也有3个分区),不同的Map task任务产生的相同的分区数据会被同一个Reduce节点进行合并(不同的分区数据会被不同的Reduce执行),合并之后执行Reduce任务,并最终得到想要的数据;

注:
Shuffle 中的缓冲区大小会影响到 mapreduce 程序的执行效率,原则上说,缓冲区越大,磁盘io的次数越少,执行速度就越快,正是因为Shuffle的过程中要不断的将文件从磁盘写入到内存,再从内存写入到磁盘,从而导致了Hadoop中MapReduce执行效率相对于Storm等一些实时计算来说比较低下的原因。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值