2021-03-29 spark sql not in 造成的执行缓慢

背景:同事写了很长一段sql,执行时间特别长,让我帮他优化一下

执行引擎:
spark 一个小时都跑不出结果,卡在mapshuffle阶段
在这里插入图片描述
impala 不到一分钟出结果在这里插入图片描述

过程:

多次调试:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

怀疑是GC引起的,尝试修改driver,executor内存,无效

set spark.executor.memory = 4g;
set spark.driver.memory = 10g;

set spark.sql.adaptive.shuffle.targetPostShuffleInputSize=128000000;
set spark.sql.adaptive.enabled=true;
set spark.sql.crossJoin.enabled = true; 
set hive.exec.dynamic.partition.mode = nonstrict;

set spark.executor.extraJavaOptions='-XX:SurvivorRatio=3 -XX:NewRatio=3 -XX:+PrintGCDetails -XX:+PrintGCTimeStamps';

在这里插入图片描述

最终定位到是由not in subquery 引起的

多次拆解sqlexplain查看执行计划,最终定位到 not in subquery 生成的BroadcastNestedLoopJoin

修改not in

使用left join + is null 替代 not in
最终结果 1分钟完成
在这里插入图片描述

参考:

Spark SQL中Not in Subquery为何低效以及如何规避

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值