MapReduce的shuffle过程详解

高个子男孩

于 2023-03-05 21:46:07 发布

阅读量129

点赞数

分类专栏： Hadoop 文章标签： mapreduce 大数据 hadoop

本文链接：https://blog.csdn.net/qq_41982570/article/details/129259845

版权

Hadoop 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

shuffle流程概括

因为频繁的磁盘I/O操作会严重的降低效率，因此“中间结果”不会立马写入磁盘，而是优先存储到Map节点的“环形内存缓冲区”，在写入的过程中进行分区（partition），也就是对于每个键值对来说，都增加了一个partition属性值，然后连同键值对一起序列化成字节数组写入到缓冲区（缓冲区采用的就是字节数组，默认大小为100M）。当写入的数据量达到预先设置的阙值后（MapReduce.Map.io.sort.spill.percent,默认0.80，或者80%）便会启动溢写出线程将缓冲区中的那部分数据溢出写（spill）到磁盘的临时文件中，并在写入前根据key进行排序（sort）和合并（combine，可选操作）。溢出写过程按轮询方式将缓冲区中的内容写到MapReduce.cluster.local.dir属性指定的目录中。当整个Map任务完成溢出写后，会对磁盘中这个Map任务产生的所有临时文件（spill文件）进行归并（merge）操作生成最终的正式输出文件，此时的归并是将所有spill文件中的相同partition合并到一起，并对各个partition中的数据再进行一次排序（sort），生成key和对应的value-list，文件归并时，如果溢写文件数量超过参数min.num.spills.for.combine的值（默认为3）时，可以再次进行合并。至此，Map端shuffle过程结束，接下来等待reduce task来拉取数据。对于reduce端的shuffle过程来说，reduce task在执行之前的工作就是不断地拉取当前job里每个Map task的最终结果，然后对从不同地方拉取过来的数据不断地做merge最后合并成一个分区相同的大文件，然后对这个文件中的键值对按照key进行sort排序，排好序之后紧接着进行分组，分组完成后才将整个文件交给reduce task处理。

分区是发生在溢出写过程之前，也就是当满足溢出写条件时，首先进行分区，然后分区内排序，并且选择性的combine，最后写出到磁盘。

【Reducer如何知道自己应该处理哪些数据】

因为Map端进行partition的时候，实际上就相当于指定了每个Reducer要处理的数据(partition就对应了Reducer)，所以Reducer在拷贝数据的时候只需拷贝与自己对应的partition中的数据即可。每个Reducer会处理一个或者多个partition。

【Reducer如何知道要从哪台机器上去的Map输出】

Map任务完成后，它们会使用心跳机制通知它们的Application Master、因此对于指定作业，Application Master知道Map输出和主机位置之间的映射关系。Reducer中的一个线程定期询问Master以便获取Map输出主机的位置。知道获得所有输出位置。