Spark性能调优案例-优化spark估计表大小失败和小表关联走 broadcast join

最新推荐文章于 2023-04-28 17:09:15 发布

fir_dameng

最新推荐文章于 2023-04-28 17:09:15 发布

阅读量1.4k

点赞数

分类专栏： Spark 文章标签： broadcast join Spark sql 参数调优小表估计失败

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014034497/article/details/127821811

版权

本文介绍了在Spark中遇到的小表广播join失败的问题，包括A任务和B任务的排查过程。问题主要源于小表大小估算错误和直接读取数据导致的广播join未触发。解决方法是通过生成临时表来正确估算大小，优化后成功启用广播join，显著减少了任务执行时间。

摘要由CSDN通过智能技术生成

背景

A任务中关联一张表，该表经过过滤和去重，数据量小于10MB，实际任务耗时较长。
B任务关联一张小表，实际任务耗时较长

排查思路

A任务排查

查看spark UIsql界面：
问题1：发现并没有走广播join
观察此处join，对于76条数据的表，估计的大小超过10M，实际76条数据大小小于spark.sql.autoBroadcastJoinThreshold的值，导致这个问题的原因在对于broadcast join的官方介绍中提到，

参数名	默认值	说明
spark.sql.autoBroadcastJoinThreshold	10485760 (10 MB)	Configures the maximum size in bytes for a table that will be broadcast to all worker nodes when performing a join. By setting this value to -1 broadcasting can be disabled. Note that currently statistics are only supported for Hive Metastore tables where the command ANALYZE TABLE COMPUTE STATISTICS noscan has been run.

由于脚本中存在中间的计算，导致不能正确的估算表的大小，

B任

最低0.47元/天解锁文章

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Spark性能调优案例-优化spark估计表大小失败和小表关联走 broadcast join

A任务中关联一张表，该表经过过滤和去重，数据量小于10MB，实际任务耗时较长。B任务关联一张小表，实际任务耗时较长。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。