hive多次join未进行谓词下推

最近执行了一段多表join出现数据倾斜的情况,下面说一下处理过程:
1.首先去yarn界面查看到job出现个别任务reduce特别的慢
2.检查一下on条件里面的字段类型是否一致,比如on a.id=b.id(a.id为bigint,b.id为string),结果都是一致。
3.查看一下主表的数据分布情况,确实有个别的类比较大,此时将count(distinct id)改为sum() group by,但还出现数据倾斜
4.commen join改成map join将维度表刷选条件下推里面,执行还出现数据倾斜,但是只看到第一张维度表有local task将其转化为map join,其他两张表没有变化。
5.查看一下hive执行计划explain,后面的表确实没有进行剪裁where条件没有起作用。于是将后面的两张表进行distinct操作,使其执行提前。这次终于成功了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值