1.分析map和reduce的个数合理性
a.map数量过多
1. 是否是输入的小文件过多导致map数量过多,这种情况考虑设置参数在map前先合并小文件(具体设置详解见hadoop小文件中4.e的设置
b.map数量过少
如果表a只有一个文件,大小为120M,但包含几千万的记录,如果用1个map去完成这个任务,肯定是比较耗时的,这种情况下,我们要考虑将这一个文件合理的拆分成多个
c.reduce数量过少
这种情况一般原因是语法中有join或者group操作,而数据有比较严重倾斜,详见数据倾斜相关处理
2.从数据角度分析是否有数据倾斜