2021-03-29 spark sql not in 造成的执行缓慢

最新推荐文章于 2023-12-13 09:44:34 发布

三吱儿

最新推荐文章于 2023-12-13 09:44:34 发布

阅读量989

点赞数

分类专栏： spark sql

本文链接：https://blog.csdn.net/qq_22482081/article/details/115302259

版权

spark sql 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

背景：同事写了很长一段sql，执行时间特别长，让我帮他优化一下

执行引擎：
spark 一个小时都跑不出结果，卡在mapshuffle阶段

impala 不到一分钟出结果

过程：

多次调试：

在这里插入图片描述

怀疑是GC引起的，尝试修改driver，executor内存，无效

set spark.executor.memory = 4g;
set spark.driver.memory = 10g;

set spark.sql.adaptive.shuffle.targetPostShuffleInputSize=128000000;
set spark.sql.adaptive.enabled=true;
set spark.sql.crossJoin.enabled = true; 
set hive.exec.dynamic.partition.mode = nonstrict;

set spark.executor.extraJavaOptions='-XX:SurvivorRatio=3 -XX:NewRatio=3 -XX:+PrintGCDetails -XX:+PrintGCTimeStamps';

在这里插入图片描述

最终定位到是由not in subquery 引起的

多次拆解sql，explain查看执行计划，最终定位到 not in subquery 生成的BroadcastNestedLoopJoin

修改not in

使用left join + is null 替代 not in
最终结果 1分钟完成
在这里插入图片描述

参考：

Spark SQL中Not in Subquery为何低效以及如何规避

三吱儿

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
2021-03-29 spark sql not in 造成的执行缓慢

背景：同事写了很长一段sql，执行时间特别长，让我帮他优化一下执行引擎：spark 一个小时都跑不出结果，卡在mapshuffle阶段impala 不到一分钟出结果过程：多次调试：怀疑是GC引起的，尝试修改driver，executor内存，无效set spark.executor.memory = 4g;set spark.driver.memory = 10g;set spark.sql.adaptive.shuffle.targetPostShuffleInputSiz
复制链接

扫一扫