MapReduce的shuffle过程详解

最新推荐文章于 2022-03-14 17:02:51 发布

土地公公爷

最新推荐文章于 2022-03-14 17:02:51 发布

阅读量514

点赞数

分类专栏： Hadoop与MapReduce 文章标签： Hadoop MapReduce shuffle过程详解马克java社区马克-to-win

原文链接：https://blog.csdn.net/mark_to_win/article/details/90347793

版权

Hadoop与MapReduce 专栏收录该内容

33 篇文章 0 订阅

订阅专栏

shuffle的英文是洗牌，混洗的意思，洗牌就是越乱越好的意思。当在集群的情况下是这样的，假如有三个map节点和三个reduce节点，一号reduce节点的数据会来自于三个map节点，而不是就来自于一号map节点。所以说它们的数据会混合，路线会交叉， 3叉3。想象一下，像不像洗牌？ shuffle在MapReduce中是指map输出后到reduce接收前，按下面的官方shuffle图：具体可以分为map端和reduce端两个部分。在最开始，假设我们就提交一个大文件，MapReduce会对要处理的大文件数据进行分片（split）操作放到多台机器的集群里，（想象一个搬走大山的大活给一个师的人马，是不是要把人，部署一圈，展开，一人干一块儿，现在是一样的道理。现在你要摆弄一个1.5T的文件，需要先把它切开，分配到不同机器）为每一个分片分配一个MapTask任务，接下来会对每一个分片中的每一行数据进行处理，得到键值对（key,value），其中key为偏移量，value为一行的内容。准备给咱们的自己的map方法。执行完咱自己的map方法，便进入shuffle阶段。为提高效率，mapreduce会把我们的写出的结果先存储到map节点的“环形内存缓冲区”（不深入探讨），当写入的数据量达到预先设置的阙值后（默认80%）便会启动溢出（spill）线程将缓冲区中的那部分数据溢出写（spill）到磁盘的临时文件中，可能会产生很多，并在写入前根据key进行排序（sort）和合并（combine，本章不讨论）。当我们map任务完成溢出写后，mapreduce会对磁盘中这个map任务产生的所有临时spill文件中的相同partition（本章不讲，本章只讲一个partition，即一个reducer的情况）合并到一起，并对各个partition中的数据再次排序（sort），生成最终的文件，即生成key和对应的value-list。

土地公公爷

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MapReduce的shuffle过程详解

shuffle的英文是洗牌，混洗的意思，洗牌就是越乱越好的意思。当在集群的情况下是这样的，假如有三个map节点和三个reduce节点，一号reduce节点的数据会来自于三个map节点，而不是就来自于一号map节点。所以说它们的数据会混合，路线会交叉， 3叉3。想象一下，像不像洗牌？ shuffle在MapReduce中是指map输出后到reduce接收前，按下面的官方shuffle图：具体可以分为...
复制链接

扫一扫

专栏目录