数据倾斜出现现象 job运行时间长或者直接宕机 数据倾斜出现原因 数据本身的问题 分区逻辑(可能取模之后就直接分配不均衡) key倾斜(有一个key的值数量多取模之后它的分区数据自然也多) 数据倾斜解决方法 重写分区逻辑 增加reduce个数 避免shuffle map端直接输出结果 如果是文件本身问题先用mr过滤将文件 在去求最终结果 如果数据过大增加内存