spark sql-Broadcast Hash Join、SMB-JOIN

最新推荐文章于 2024-04-14 14:23:26 发布

！@123

最新推荐文章于 2024-04-14 14:23:26 发布

阅读量784

点赞数 10

分类专栏：大数据文章标签： spark 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a123op2346/article/details/134799036

版权

大数据专栏收录该内容

17 篇文章 0 订阅

订阅专栏

本文介绍了两种高效的SQLjoin方法：BroadcastHashJoin通过驱动端聚合小表并广播至大表分区，减少shuffle；SMB-Join利用sort-merge-bucket操作，通过分桶和排序减少无关项扫描。调整`spark.sql.autoBroadcastJoinThreshold`参数有助于提升性能。

摘要由CSDN通过智能技术生成

一、Broadcast Hash Join

是效率最高的join

原理
先将小表聚合到 driver 端，再广播到各个大表分区中。那么
再次进行 join 的时候，就相当于大表的各自分区的数据与小表进行本地 join，从而避免了shuffle
配置
set spark.sql.autoBroadcastJoinThreshold=10m，默认为10m，一般情况下值太小，需要增大参数

二、SMB-JOIN

sort merge bucket join

原理
sort merge bucket 操作，需要进行分桶，首先会进行排序，然后根据 key值合并，把相同 key 的数据放到同一个 bucket 中（按照 key 进行 hash）。分桶的目的其实
就是把大表化成小表。相同 key 的数据都在同一个桶中之后，再进行 join 操作，那么在联合的时候就会大幅度的减小无关项的扫描。
条件
1、连接的两张表都进行分桶，且桶的个数一样
2、两边进行 join 时，join 列=排序列=分桶列

关注

10
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
spark sql-Broadcast Hash Join、SMB-JOIN

brocast join、SMB-join
复制链接

扫一扫

专栏目录

！@123 CSDN认证博客专家 CSDN认证企业博客

码龄6年

43: 原创

28万+: 周排名

17万+: 总排名

1万+: 访问

: 等级

483: 积分

19: 粉丝

49: 获赞

14: 评论

51: 收藏

私信

关注

热门文章

分类专栏

大数据 17篇
jvm 1篇
java 4篇
mysql 1篇
docker 5篇
docker-compose 5篇
linux 1篇
笔记 5篇
k8s 3篇

最新评论

linux部署kafka集群
CSDN-Ada助手: 恭喜您写下了第18篇博客！看到您分享关于“linux部署kafka集群”的内容，我真是受益匪浅。您的经验和知识分享对于我们这些对kafka集群部署不太了解的人来说非常有帮助。在接下来的创作中，我想提个谦虚的建议。或许您可以考虑分享一些关于kafka集群稳定性的经验，或者讨论一些常见的问题和解决方案。当然，这只是一个建议，我知道您一定还有很多其他精彩的主题等待我们去探索。再次感谢您的分享，期待您的下一篇博客！
docker-compose部署redis
CSDN-Ada助手: 恭喜您写了第11篇博客！标题为“docker-compose部署redis”，我很高兴看到您持续创作并分享有关Docker和Redis的经验。您的博客对于那些希望了解如何使用docker-compose来部署Redis的人们来说一定非常有帮助。在下一步的创作中，我建议您可以考虑探索更多关于Redis的主题，如缓存策略、持久化、高可用性等方面的内容。此外，您还可以尝试与其他容器化工具或技术进行整合，例如使用Kubernetes部署Redis集群。再次恭喜您的努力和成果，期待看到您未来更多精彩的博客！
docker-compose部署es+kibana
CSDN-Ada助手: 恭喜您写了第12篇博客，标题为“docker-compose部署es+kibana”。我非常欣赏您分享这样有价值的内容，尤其是介绍了如何使用docker-compose来部署es和kibana。这对于那些想要搭建自己的数据分析环境的人来说非常有帮助。在下一步的创作中，我想建议您考虑深入探讨如何优化和扩展这个部署方案。比如，您可以分享如何配置集群、添加安全性措施以及实现高可用性。这些内容将进一步拓宽读者的视野，让他们更好地应用于实际生产环境中。再次恭喜您的连续创作，期待您的下一篇博客！请继续保持谦虚的态度，我们都在学习中不断进步。
docker-compose部署nginx
CSDN-Ada助手: 恭喜您写了第13篇博客！标题为“docker-compose部署nginx”，我很高兴看到您持续创作并分享有关Docker和nginx的经验。正如您所提到的，使用docker-compose部署nginx确实是一种方便且高效的方式。在接下来的创作中，我建议您可以探索一下与nginx相关的进阶主题，比如如何配置反向代理、负载均衡和SSL证书等。这些主题将进一步加强您的文章内容，为读者提供更全面的指导。谦虚地说，我相信您对这些主题的理解和实践会给读者带来很大的帮助。期待您的下一篇博客！
centos7安装jdk1.8
CSDN-Ada助手: 恭喜您写了第14篇博客！看到您分享有关centos7安装jdk1.8的经验，我感到非常高兴。您的文章对于那些需要在centos7上安装jdk1.8的读者来说，肯定会非常有帮助。在下一步的创作中，我建议您可以继续深入探讨jdk1.8的一些常见问题和应用场景，或者提供一些与centos7配套使用的其他开发工具或框架的安装教程。这样，读者可以更全面地了解和掌握相关知识。再次恭喜您的持续创作，期待您更多精彩的博客文章！谦虚的语气也希望您能保持，因为您的分享对于我们这些读者来说真的非常有价值。加油！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。