1 CombineFileinputFormat (预处理阶段) 或尽量使用大文件
2 Combine(map输出阶段)
3 压缩数据(map输出阶段),减少传往reduce的阶段的网络传输,内存和磁盘交换
4 数据过滤(写hdfs之前)
2 Combine(map输出阶段)
3 压缩数据(map输出阶段),减少传往reduce的阶段的网络传输,内存和磁盘交换
4 数据过滤(写hdfs之前)
5 Comparator(复杂数据, Reduce阶段)
以上纯纯个人观点