Spark中JOIN执行的5种策略

最新推荐文章于 2024-07-16 23:47:57 发布

大数据供成屎

最新推荐文章于 2024-07-16 23:47:57 发布

阅读量744

点赞数

文章标签： spark Powered by 金山文档

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lbg20211023/article/details/129031890

版权

本文详细介绍了Spark中的5种JOIN机制：Shuffle Hash Join、Broadcast Hash Join、Sort Merge Join、Cartesian Join以及Broadcast Nested Loop Join，包括各自的适用场景、条件与特点。在等值连接的情况下，Spark会选择Broadcast Hash Join、Sort Merge Join或Shuffle Hash Join，而Broadcast Hash Join能有效提升JOIN效率，但对小表数据量有限制。在非等值连接时，会选择Broadcast Nested Loop Join或Cartesian Join。

摘要由CSDN通过智能技术生成

Spark提供了5种JOIN机制来执行具体的JOIN操作。该5种JOIN机制如下所示：

Shuffle Hash Join

Broadcast Hash Join

Sort Merge Join

Cartesian Join

Broadcast Nested Loop Join

Shuffle Hash Join

简介

当要JOIN的表数据量比较大时，可以选择Shuffle Hash Join。这样可以将大表进行按照JOIN的key进行重分区，保证每个相同的JOIN key都发送到同一个分区中。

Shuffle Hash Join的基本步骤主要有以下两点：

首先，对于两张参与JOIN的表，分别按照join key进行重分区，该过程会涉及Shuffle，其目的是将相同join key的数据发送到同一个分区，方便分区内进行join。

其次，对于每个Shuffle之后的分区，会将小表的分区数据构建成一个Hash table，然后根据join key与大表的分区数据记录进行匹配。

条件与特点

仅支持等值连接，join key不需要排序

支持除了全外连接(full outer joins)之外的所有join类型

需要对小表构建Hash map，属于内存密集型的操作，如果构建Hash表的一侧数据比较大，可能会造成OOM

最低0.47元/天解锁文章

大数据供成屎

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。