参考文献
执行hive sql时,如果某个reduce任务特别慢,很可能是出现了数据倾斜。
如何查找数据倾斜?
第一步,在hive日志里找到当前job的日志
第二步,查看counter
点击进入 reduce input records,发现有一个reduce任务的数量远大于其他任务。
第三步打开日志,进入job日志详细界面
第三步,点击上图红色部分,进入明细界面。
第四步,进入reduce的统计界面
发现有一个任务的执行时间特别长。
第五步,进入这个任务的明细界面
第六步,查看这个任务的日志
可以搜一下关键字key,发现key为1