Mapreduce框架-shuffle

最新推荐文章于 2022-09-28 17:04:26 发布

amingo_ss

最新推荐文章于 2022-09-28 17:04:26 发布

阅读量579

点赞数 2

分类专栏： mapreduce 大数据文章标签： mapreduce hadoop

本文链接：https://blog.csdn.net/amingo_ss/article/details/108674881

版权

大数据同时被 2 个专栏收录

23 篇文章 0 订阅

订阅专栏

mapreduce

8 篇文章 0 订阅

订阅专栏

1.shuffle简介

shuffle的正常意思是洗牌或弄乱。它只代表reduce task获取map task的输出的过程，也可以理解为从map输出到reduce输入的整个过程。shuffle是MR的核心，也有把它称为奇迹发生的地方。这样MR的过程可以简化为下图
在这里插入图片描述
将MR简化过程图进行细化，就有了那张经典流程图

2.shuffle过程包含的阶段

把map阶段完成数据的程序处理到reduce阶段开始执行数据处理任务的阶段叫shuffle，奇迹发生的地方。
（1）溢写：map的数据写入到环形缓冲区，到达阈值比例以后，写出。
（2）分区：根据reduce数量对map输出结果分区（分成多少份）。
（3）排序：map输出数据进行排序。
（4）写入磁盘临时文件：将排序后数据按分区写入临时文件。
（5）分区文件合并排序：将多次溢写的分区文件进行合并排序。
（5）拷贝：将map的临时磁盘文件拷贝到reduce
（6）合并：reduce将拷贝的所有map临时文件进行合并。
（7）排序：对合并以后的文件进行排序。排序好生成一个新的文件即是reduce任务的输入。

可选阶段：Combiner
在map端提前进行reduce运算。

3.我们对于shuffle过程的期望

对于Hadoop集群，当我们在运行作业时，大部分的情况下，map task与reduce task的执行是分布在不同的节点上的，因此，很多情况下，reduce执行时需要跨节点去copy其他节点上的map task输出结果，这样造成了集群内部的网络资源消耗很严重，而且在节点的内部，相比于内存，磁盘I/O对性能的影响是非常严重的。如果集群中运行的job有很多，那么task的执行对于集群内部网络的资源消费非常大。

因此，我们对于MR作业的shuffle过程的期望是：
1，将Map的输出数据完整地传输到Reduce端。
2，在传输数据时，尽可能得减少不必要的带宽消耗。
3，降低磁盘I/O的影响。

amingo_ss

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Mapreduce框架-shuffle

1.shuffle简介shuffle的正常意思是洗牌或弄乱。它只代表reduce task获取map task的输出的过程，也可以理解为从map输出到reduce输入的整个过程。shuffle是MR的核心，也有把它称为奇迹发生的地方。这样MR的过程可以简化为下图将MR简化过程图进行细化，就有了那张经典流程图2.shuffle过程包含的阶段把map阶段完成数据的程序处理到reduce阶段开始执行数据处理任务的阶段叫shuffle，奇迹发生的地方。（1）溢写：map的数据写入到环形缓冲区，到达阈值
复制链接

扫一扫

专栏目录