- 工作流程:
将Map端的<key,value>组合成新的key,即newkey。value值保持不变。
Map端输出结构为<newkey,value>=<(key,value),value>。
按newkey中的key分区,其value排序。
总结:
相对于一次排序来说,二次排序改变了Map端的输出结构,并按newkey中的key分区然后排序,之后直接进入shuffle阶段,按相同的分区进行合并与排序,最后进入Reduce阶段,按Map端的各个输入结果,根据排序规则进行分组,最终结果保存到HDFS中。