Mapreduce框架-shuffle

1.shuffle简介

shuffle的正常意思是洗牌或弄乱。它只代表reduce task获取map task的输出的过程,也可以理解为从map输出到reduce输入的整个过程。shuffle是MR的核心,也有把它称为奇迹发生的地方。这样MR的过程可以简化为下图
在这里插入图片描述
将MR简化过程图进行细化,就有了那张经典流程图
在这里插入图片描述

2.shuffle过程包含的阶段

把map阶段完成数据的程序处理到reduce阶段开始执行数据处理任务的阶段叫shuffle,奇迹发生的地方。
(1)溢写:map的数据写入到环形缓冲区,到达阈值比例以后,写出。
(2)分区:根据reduce数量对map输出结果分区(分成多少份)。
(3)排序:map输出数据进行排序。
(4)写入磁盘临时文件:将排序后数据按分区写入临时文件。
(5)分区文件合并排序:将多次溢写的分区文件进行合并排序。
(5)拷贝:将map的临时磁盘文件拷贝到reduce
(6)合并:reduce将拷贝的所有map临时文件进行合并。
(7)排序:对合并以后的文件进行排序。排序好生成一个新的文件即是reduce任务的输入。

可选阶段:Combiner
在map端提前进行reduce运算。

3.我们对于shuffle过程的期望

对于Hadoop集群,当我们在运行作业时,大部分的情况下,map task与reduce task的执行是分布在不同的节点上的,因此,很多情况下,reduce执行时需要跨节点去copy其他节点上的map task输出结果,这样造成了集群内部的网络资源消耗很严重,而且在节点的内部,相比于内存,磁盘I/O对性能的影响是非常严重的。如果集群中运行的job有很多,那么task的执行对于集群内部网络的资源消费非常大。

因此,我们对于MR作业的shuffle过程的期望是:
1,将Map的输出数据完整地传输到Reduce端。
2,在传输数据时,尽可能得减少不必要的带宽消耗。
3,降低磁盘I/O的影响。

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值