spark-sql join原理

最新推荐文章于 2024-04-03 01:39:16 发布

Wang Zhuoqun

最新推荐文章于 2024-04-03 01:39:16 发布

阅读量292

点赞数

分类专栏： spark 文章标签： spark sql 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ooeeerrtt/article/details/120964613

版权

spark 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

一、Hash Join

场景：对于输入的两张小表进行单机的join运算。

原理：两张表中相对小的一张表作为Hash表加载到内存中，另外一张表作为探测表，循环去Hash表中探测匹配。

二、Broadcast Hash Join

Hash Join在分布式场景下的一种实现。

场景：对于输入的两张表，一张大表，一张小表（小于10M）

原理：将小表广播分发到另一张大表所在的分区节点上，分别并发地与其上的分区记录进行hash join。

三、Shuffle Hash Join

Hash Join在分布式场景下的一种实现。

场景：对于输入的两张表，一张大表，一张小表（大于10M）

原理：根据join key将两张表分别按照join key进行重新组织分区，这样将join分而治之，划分为很多小join，充分利用集群资源并行化。

四、Sort Merge Join

场景：对于输入的两张大表，进行join运算。

原理：

1、shuffle阶段：将两张大表根据join key进行重新分区，两张表数据会分布到整个集群，以便分布式并行处理。

2、sort阶段：对单个分区节点的两表数据，分别进行排序。

3、merge阶段：对排号序的两张分区表数据执行join操作。join操作很简单，分别遍历两个有序序列，碰到相同join key就merge输出，否则去更小的一边。

注：Sort Merge Join于spark的shuffle实现算法想匹配，因此在应该shuffle之后partition数据都是按key排序的。因此理论上可以认为经过shuffle之后是不需要sort的，可以直接merge。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark-sql join原理

一、Hash Join场景：对于输入的两张小表进行单机的join运算。原理：两张表中相对小的一张表作为Hash表加载到内存中，另外一张表作为探测表，循环去Hash表中探测匹配。二、Broadcast Hash JoinHash Join在分布式场景下的一种实现。场景：对于输入的两张表，一张大表，一张小表（小于10M）原理：将小表广播分发到另一张大表所在的分区节点上，分别并发地与其上的分区记录进行has...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。