一.数据输入
1.使用 Hadoop Archive或二进制文件合并小文件
2.采用CombineTextInputFormat作为输入
3.开启JVM重用
二.Map阶段
1.减小溢写次数
2.减小合并次数
三.Reduce阶段
1.合理设置map和reduce次数
2.设置map reduce共存
3.规避使用reduce
4.合理设置reduce的buffer
四.Io传输
1.采用数据压缩
2.采用二进制文件
五.数据倾斜问题
1.抽样和范围分区
2.自定义分区
3.combine
4.采用Map Join,尽量避免Reduce Join