一 Map端
第一步使用InputSplit将文件按照block大小分为一块块的,进入map阶段,分解成<key,value>的形式。
第二步进行map操作,将产生的结果放入缓存中,查看分区数目(reduce的个数),按照key进行分区,将相同的key 的数据放入分区,按照key进行排序。
第三步,如果设置了Combiner,则对相同key的数据集合进行操作,相当于本地reduce,当缓存中数目达到一定的比例时(通常是80%),刷写到磁盘中。
第四步,map结束时会将刷写如磁盘中的文件进行合并,最多10个文件merge成一个文件,进行多次merge sort
第五步,map端shuffle完毕,数据都有序的存放在磁盘中,等待reduce阶段来取。
二 Reduce 阶段
第一步,开启多个后台线程,将map的输出拷贝过来,先拷贝到内存,当内存满了,则拷贝到磁盘中,
第二步,将拷贝过来的文件,按照key相同的进行合并。
第三步,如果设置了Combiner,可能会调用,进行操作
第四步,进行reduce计算。
三 汇总:
1. 并不是所有的job都适用combiner,只有操作满足结合律的才可设置combiner
Combiner最基本是实现本地key的聚合,对map输出的key排序,value进行迭代
2 分区Partitioner主要作用在于以下两点
(1)根据业务需要,产生多个输出文件;
(2)多个reduce任务并发运行,提高整体job的运行效率
3 map过程的输出是写入本地磁盘而不是HDFS,但是一开始数据并不是直接写入磁盘而是缓冲在内存中,缓存的好处就是减少磁盘I/O的开销,提高合并和排序的速度。又因为默认的内存缓冲大小是100M(当然这个是可以配置的),所以在编写map函数的时候要尽量减少内存的使用,为shuffle过程预留更多的内存,因为该过程是最耗时的过程