mapreduce工作流程:wordcount
1.文件分割,每一个split对应一个mapper
2.mapper进行映射,(word,1)
3.map-shuffle 对map结果的key根据reducer的个数进行hash写入缓冲区(key,value,partition),当缓冲区的大小占用了80%左右,将缓冲区的数据写入磁盘,并根据partition、key进行排序,生成一个/多个溢写文件。同时,不影响剩余20%的数据写入缓冲区。
4.若客户端定义了combiner,在写溢写文件时将相同的key的value值相加。此种情况仅适用于输入key/value与输出key/value类型完全一致。将多个溢写文件的key /value进行merge,生成一个group(word,[7,9,9],partition?)。
一个map task端生成一个结果文件。
5.reduce-shuffle
当5%的map task完成任务后,reducer task通过http方式从map task 拷贝数据。数据会保存到内存中,当超过内存的阈值后,开始写入溢写文件,直到map无文件生成。溢写文件不断merge(可能是根据partitionmerge??)生成一个最终文件。
4.将局部merge的结果输入reducer,进行归并。