MapReduce(十二): Map和Reduce阶段数据合并的处理

最新推荐文章于 2024-09-02 20:46:34 发布

dickens

最新推荐文章于 2024-09-02 20:46:34 发布

阅读量8.4k

点赞数

分类专栏： Hadoop 文章标签： MapReduce 源代码 map

本文链接：https://blog.csdn.net/dickens/article/details/39009633

版权

MapReduce在Map阶段处理数据时，因内存限制将数据写入文件并按key排序，Map结束后合并文件并重新排序。Reduce阶段从多个Map获取对应分区数据，同样进行合并与排序。合并过程使用Segment封装文件或内存数据，通过MergeQueue按Key排序进行读取。当文件数量超过阈值时，会先进行文件合并以保持文件数量在合理范围内。

摘要由CSDN通过智能技术生成

在Map阶段处理数据时，由于内存的限制，会把数据先写到文件中，最终会根据数据的多少生成多个文件，每个文件中会按照Reduce的个数分区，每个分区的数据都按照key值顺序排放，Map结束后将多个文件合并为同一个文件，合并时会将多个文件相同分区的数据合并在一起并且多个分区的数据重新排序按照key顺序排放。在Reduce阶段则从多个Map中获取属于该Reduce的分区数据，然后会根据数据的多少写到文件和内存中，每个Map的数据为一个文件或一段内存，最后对内存和文件的数据进行合并计算输出最后的结果，合并的方式与Map合并方式一致。因此在Map和Reduce阶段都存在把多个文件或多段内存中的数据合并计算输出一个文件。

如上图所示Map阶段需要对多个文件的数据合并，在Reduce阶段Reduce Task 1向各个Map获取分区1的数据，Reduce Task 2向各个Map获取分区2的数据，Reduce Task 3向各个Map获取分区3的数据，图中为了简便，Reduce Task3向map获取数据的指向没有标识。获取完毕后根据数据的大小情况放到内存或文件中，然后对多个Map的分区数据进行合并，然后reduce计算后输出最终结果。

合并数据前首先把内存的数据，或者文件的数据用Segment封装对数据的读取，它提供了两个构造函数，分别对文件和内存的读入方式构造Segmen