Spark SQL 中 Broadcast Join 一定比 Shuffle Join 快？那你就错了。

最新推荐文章于 2024-07-16 23:47:57 发布

过往记忆

最新推荐文章于 2024-07-16 23:47:57 发布

阅读量1.5k

点赞数

本文链接：https://blog.csdn.net/wypblog/article/details/107148273

版权

本文通过TPC-H测试揭示，在某些情况下，Broadcast Join并不一定比Shuffle Join快。测试显示，当数据量较大时，Broadcast Join可能会因Driver端内存限制导致性能下降。Broadcast Join的工作机制包括数据收集、哈希表构建和广播，这可能导致额外的开销。文章介绍了Executor端的broadcast优化，以避免在Driver端收集数据，提高性能。测试结果表明，核心数多时Shuffle Join占优，广播表数据量增大时Broadcast Join更优。Spark的Executor端Broadcast特性尚未合并到主线版本。

摘要由CSDN通过智能技术生成

本资料来自 Workday 的软件开发工程师 Jianneng Li 在 Spark Summit North America 2020 的《On Improving Broadcast Joins in Spark SQL》议题的分享。相关 PPT 可以到你要的 Spark AI Summit 2020 PPT 我已经给你整理好了里面获取。