MapReduce工作原理

肖奈@贝微微

于 2020-12-03 21:18:37 发布

阅读量299

点赞数

本文链接：https://blog.csdn.net/monstarerv/article/details/110571261

版权

MapReduce主要包含Map和Reduce两个阶段，Map端通过分片处理数据，经过分区、排序和Combiner操作，生成已分区且排序的文件。Shuffle过程包括分区、排序和局部合并。Reduce端接收数据并存储在内存，当超过一定阈值时，数据会被溢写到磁盘并进行多次合并，最终输入到reduce函数。

摘要由CSDN通过智能技术生成

MapReduce工作分为两个步骤：Maptask,Reducetask

Map端：

1．每个输入分片会让一个map任务来处理，默认情况下，以HDFS的一个块的大小（默认为64M）为一个分片，当然我们也可以设置块的大小。map输出的结果会暂且放在一个环形内存缓冲区中（该缓冲区的大小默认为100M，由io.sort.mb属性控制），当该缓冲区快要溢出时（默认为缓冲区大小的80%，由io.sort.spill.percent属性控制），会在本地文件系统中创建一个溢出文件，将该缓冲区中的数据写入这个文件。

2．在写入磁盘之前，线程首先根据reduce任务的数目将数据划分为相同数目的分区，也就是一个reduce任务对应一个分区的数据。这样做是为了避免有些reduce任务分配到大量数据，而有些reduce任务却分到很少数据，甚至没有分到数据的尴尬局面。其实分区就是对数据进行hash的过程。然后对每个分区中的数据进行排序，如果此时设置了Combiner，将排序后的结果进行Combia操作，这样做的目的是让尽可能少的数据写入到磁盘。

3．当map任务输出最后一个记录时，可能会有很多的溢出文件，这时需要将这些文件合并。合并的过程中会不断地进行排序和combia操作，目的有两个：1.尽量减少每次写入磁盘的数据量；2.尽量减少下一复制阶段网络传输的数据量。最后合并成了一个已分区且