Spark 的三种join方式

最新推荐文章于 2024-04-14 14:23:26 发布

Cola、

最新推荐文章于 2024-04-14 14:23:26 发布

阅读量757

点赞数

分类专栏： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_24296421/article/details/116273358

版权

spark 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

参考博客：https://www.cnblogs.com/duodushuduokanbao/p/9911256.html

Spark的join实现方案有三种:

broadcast hash join
shuffle hash join
sort-merge join

hash join

确定小表（Bulid Table) 和大表（Probe Table）,利用小表根据 key 进行hash，建立hash table，大表同样对key进行相同的hash，映射hash table中的记录，如果映射成功且join条件符合，则将数据进行关联。

为什么 bulid table 选择小表, probe table 选择大表？因为在构建 hash table 时最好能将其全部加载到内存，这样才效率最高，这也说明了为什么 hash join 算法只适合至少有一个小表的场景，对于两个大表的join 场景并不适用，两个大表的 join ,可选用 sort merge join。

hash join主要针对单机，以下两种是对hash join的分布式改造后

Broadcast join

一般用于维表和实时表进行join，可将维表（一般不超过10M）发送至各个节点，使各个节点都存有一份完整的维表数据，接下来相当于单机进行hash join。

SparkSQL 也可以根据内存资源、带宽资源适量将参数 spark.sql.autoBroadcastJoinThreshold（默认是 10M）调大，让更多 join 实际执行为 broadcast hash join。

shuffle join

当join的两张表数据量都很大时，利用 key相同的数据将会被分到相同分区上的原理，将两张表按key进行分区，使相同key的记录分到同一个节点上，然后在对每个节点上的数据进行hash join

sort-merge join（没太理解）

和shuffle join一样，将两张大表join key进行重分区，对每个分区的节点进行排序，然后对排好序的表进行join，join的操作：分表遍历两个有序序列，碰到相同的key就merge然后输出

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Spark 的三种join方式

参考博客：https://blog.csdn.net/qq_23609603/article/details/108250141Spark的join实现方案有三种:hash join broadcast hash join shuffle hash joinhash join确定小表（Bulid Table)和大表（Probe Table）,利用小表根据 key 进行hash，建立hash table，大表同样对key进行相同的hash，映射hash table中的记录，如果映射成.
复制链接

扫一扫

专栏目录

Cola、 CSDN认证博客专家 CSDN认证企业博客

码龄10年

43: 原创

42万+: 周排名

143万+: 总排名

9万+: 访问

: 等级

1017: 积分

9: 粉丝

22: 获赞

13: 评论

93: 收藏

私信

关注

分类专栏

flink 6篇
hive 8篇
Hbase 1篇
Linux 1篇
php 4篇
mysql 5篇
maven 2篇
dubbo 1篇
spark 5篇
scala 2篇

最新评论

Flink SQL 使用ROW_NUMBER()报错
qq_40089798: 同看不懂这是啥
Flink中TaskManager、Slot和Parallelism
Cola、: 是呢，感谢指正
Flink中TaskManager、Slot和Parallelism
江南一瓢雨: TM的数量=slot数量/并行度（向上取整）。是不是分子分母写反了
Flink SQL 使用ROW_NUMBER()报错
坑死人不偿命: 大佬，没明白这个dateKey和currentDateKey是啥
Hbase Java查询API
归来巨星: 博主原创不容易啊，过来支持一下哈。最近我也在更新多编程入门系列文章，有兴趣可以关注看看~

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。