map reduce的工作流程

最新推荐文章于 2024-05-05 16:13:36 发布

黛黛黛大

最新推荐文章于 2024-05-05 16:13:36 发布

阅读量255

点赞数 1

本文链接：https://blog.csdn.net/qq_40618823/article/details/90900131

版权

mapreduce工作流程：wordcount

1.文件分割，每一个split对应一个mapper

2.mapper进行映射，（word,1）

3.map-shuffle 对map结果的key根据reducer的个数进行hash写入缓冲区（key,value,partition），当缓冲区的大小占用了80%左右，将缓冲区的数据写入磁盘，并根据partition、key进行排序，生成一个/多个溢写文件。同时，不影响剩余20%的数据写入缓冲区。

4.若客户端定义了combiner，在写溢写文件时将相同的key的value值相加。此种情况仅适用于输入key/value与输出key/value类型完全一致。将多个溢写文件的key /value进行merge，生成一个group（word，[7，9，9]，partition？）。

一个map task端生成一个结果文件。

5.reduce-shuffle

当5%的map task完成任务后，reducer task通过http方式从map task 拷贝数据。数据会保存到内存中，当超过内存的阈值后，开始写入溢写文件，直到map无文件生成。溢写文件不断merge（可能是根据partitionmerge？？）生成一个最终文件。

4.将局部merge的结果输入reducer，进行归并。