Mapreduce的shuffle过程

Shuffle描述着数据从map task 输出到reduce task输入的这段过程。
由于大部分map task和reduce task都是运行在不同的节点上的,shuffle的作用就是减小reduce task 跨节点去拉取map task运行结果的代价,减少不必要的消耗;另外磁盘IO无疑是十分影响效率的地方,所以尽可能的通过在内存中解决问题,

所以我们对shuffle过程的期望是:
1) 完整地从map task端拉取数据到reduce 端。
2) 在跨节点拉取数据时,尽可能地减少对带宽的不必要消耗。
3) 减少磁盘IO对task执行的影响。

在map端
为了减少磁盘IO对task执行的影响,所以我们将map的生成临时文件都写入一块内存缓冲区之中,这块内存缓冲区是有大小限制的,一般来讲是100MB,当生成的文件过多时,会发生spill过程,即将缓冲区的临时数据写入磁盘,而为了不影响map结果的写入操作,当缓冲区的占用率达到80%时,就会进行spill过程,而另外的20%继续接受map产生的临时数据,在溢出过程中会做排序和merge的操作,如何定义了combiner(local reducer),也会执行从而进一步压缩map端的数据
当map task完成时,最终会在磁盘中将所有的溢写文件合并,生成一个最终的溢写文件

在reduce端
一开始是copy过程,只是检测那个map task完成了,然后就将器结果拉取过来,放置在内存缓冲去之中,然后一直在排序合并(Merge),定义了combiner的话,也会做combiner操作,生成最终的一个溢写文件,当reduce端的输入文件生成时,shuffle过程也完成了

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值