当属于该reducer的map输出全部拷贝完成,则会在reducer上生成多个文件(如果拖取的所有map
数据总量都没有内存缓冲区,则数据就只存在于内存中),这时开始执行合并操作,即磁盘到磁
盘merge,Map的输出数据已经是有序的,Merge进行一次合并排序,所谓Reduce端的sort过程就
是这个合并的过程。一般Reduce是一边copy一边sort,即copy和sort两个阶段是重叠而不是完全分
开的。最终Reduce shuffle过程会输出一个整体有序的数据块
MapReduce原理(4):图解 MapReduce中的 map()、shuffle()、reduce()的过程
最新推荐文章于 2022-11-17 22:05:47 发布