、
合并(combine)与归并(Merge)区别:
两个键值对<“a”,1>和<“a”,1>,如果合并,会得到<“a”,2>,如果归并,会得到<“a”,<1,1>>;
图第一步内容:
每个Map任务分配一个缓存
MapReduce默认100MB缓存
图第二步的内容:
设置溢写比例0.8 :保证不丢失可持续运行;
图第三步内容:
分区默认采用哈希函数排序是默认的操作
排序后可以合并(Combine)(可自定义,默认没定义)
合并不能改变最终结果
图第四步内容:
在Map任务全部结束之前进行归并归并得到一个大的文件,放在本地磁盘
文件归并时,如果溢写文件数量大于预定值(默认是3)则可以再次启动Combiner,少于3不需要
JobTracker会一直监测Map任务的执行,并通知Reduce任务来领取数据