spark sql boardcast join 生效问题探索

最新推荐文章于 2023-02-23 14:12:43 发布

Hsienhua

最新推荐文章于 2023-02-23 14:12:43 发布

阅读量727

点赞数

分类专栏： spark 文章标签： apache spark spark sql

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hsienhua/article/details/106737274

版权

这里写目录标题

本文针对版本spark 2.2

问题描述

spark sql 执行sql语句：

big_table a left join small_table b  on a.id = b.id

small_table 只有100多行数据。
big_table 大约5亿行数据。
没有触发 spark sql 的 broadcast join，导致sql执行缓慢。

问题排查

broadcast join 自动触发条件。

小表的size是否小于spark.sql.autoBroadcastJoinThreshold设定的值。
表大小的估算通过hive元数据库的统计值，即要保证 ANALYZE TABLE COMPUTE STATISTICS noscan 已经执行过了。

执行

show tblproperties small_table;

没有得出统计数据。

###问题找到
small_table 得元数据中没有相关统计数据, 导致spark 生成执行计划时没有触发 broadcast join 。

解决

执行

ANALYZE TABLE small_table COMPUTE STATISTICS noscan

输出

 INFO exec.StatsTask: small_table stats: [numFiles=1, numRows=0, totalSiz

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
spark sql boardcast join 生效问题探索

这里写目录标题本文针对版本spark 2.2问题描述问题排查broadcast join 自动触发条件。执行解决不能自动触发boardcast join得情况本文针对版本spark 2.2问题描述spark sql 执行sql语句：big_table a left join small_table b on a.id = b.idsmall_table 只有100多行数据。big_table 大约5亿行数据。没有触发 spark sql 的 broadcast join，导致sql执
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。