最近执行了一段多表join出现数据倾斜的情况,下面说一下处理过程:
1.首先去yarn界面查看到job出现个别任务reduce特别的慢
2.检查一下on条件里面的字段类型是否一致,比如on a.id=b.id(a.id为bigint,b.id为string),结果都是一致。
3.查看一下主表的数据分布情况,确实有个别的类比较大,此时将count(distinct id)改为sum() group by,但还出现数据倾斜
4.commen join改成map join将维度表刷选条件下推里面,执行还出现数据倾斜,但是只看到第一张维度表有local task将其转化为map join,其他两张表没有变化。
5.查看一下hive执行计划explain,后面的表确实没有进行剪裁where条件没有起作用。于是将后面的两张表进行distinct操作,使其执行提前。这次终于成功了。
hive多次join未进行谓词下推
最新推荐文章于 2024-07-15 22:41:04 发布