left join 一对多只取一条_SparkSQL的3种Join实现-CSDN博客

本文详细介绍了SparkSQL中的3种Join操作：Broadcast Hash Join、Shuffle Hash Join和Sort Merge Join。Broadcast Hash Join适合小表与大表的Join，避免shuffle操作；Shuffle Hash Join在小表数据量较大时，根据join key重新分区，减少driver和executor内存压力；Sort Merge Join则用于处理大表间的Join，通过排序降低内存需求。每种Join策略有其特定的应用场景，应根据数据规模和资源选择合适的方法。

摘要由CSDN通过智能技术生成

引言Join是SQL语句中的常用操作，良好的表结构能够将数据分散在不同的表中，使其符合某种范式，减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作。

对于Spark来说有3中Join的实现，每种Join对应着不同的应用场景：

Broadcast Hash Join ：适合一张较小的表和一张大表进行join

Shuffle Hash Join : 适合一张小表和一张大表进行join，或者是两张小表之间的join

Sort Merge Join ：适合两张较大的表之间进行join

前两者都基于的是Hash Join，只不过在hash join之前需要先shuffle还是先broadcast。下面将详细的解释一下这三种不同的join的具体原理。

Hash Join先来看看这样一条SQL语句：

select * from order,item where item.id = order.i_id

确定Build Table以及Probe Table：这个概念比较重要，Build Table使用join key构建Hash Table，而Probe Table使用join key进行探测，探测成功就可以join在一起。通常情况下，小表会作为Build Table，大表作为Probe Table。此事例中item为Build Table，order为Probe Table；很简单一个Join节点，参与join的两张表是item和order，join key分别是item.id以及order.i_id。现在假设这个Join采用的是hash join算法，整个过程会经历三步：

构建Hash Table：依次读取Build Table（item）的数据，对于每一行数据根据join key（item.id）进行hash，hash到对应的Bucket，生成hash table中的一条记录。数据缓存在内存中，如果内存放不下需要dump到外存；

探测：再依次扫描Probe Table（order）的数据，使用相同的hash函数映射Hash Table中的记录，映射成功之后再检查join条件（item.id = order.i_id），如果匹配成功就可以将两者join在一起。

基本流程可以参考上图，这里有两个小问题需要关注：

hash join性能如何？很显然，hash join基本都只扫描两表一次，可以认为o(a+b)，较之最极端的笛卡尔集运算a*b，不知甩了多少条街；

为什么Build Table选择小表？道理很简单，因为构建