left join 一对多只取一条_SparkSQL的3种Join实现

本文详细介绍了SparkSQL中的3种Join操作:Broadcast Hash Join、Shuffle Hash Join和Sort Merge Join。Broadcast Hash Join适合小表与大表的Join,避免shuffle操作;Shuffle Hash Join在小表数据量较大时,根据join key重新分区,减少driver和executor内存压力;Sort Merge Join则用于处理大表间的Join,通过排序降低内存需求。每种Join策略有其特定的应用场景,应根据数据规模和资源选择合适的方法。
摘要由CSDN通过智能技术生成

引言Join是SQL语句中的常用操作,良好的表结构能够将数据分散在不同的表中,使其符合某种范式,减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作。

对于Spark来说有3中Join的实现,每种Join对应着不同的应用场景:

Broadcast Hash Join :适合一张较小的表和一张大表进行join

Shuffle Hash Join : 适合一张小表和一张大表进行join,或者是两张小表之间的join

Sort Merge Join :适合两张较大的表之间进行join

前两者都基于的是Hash Join,只不过在hash join之前需要先shuffle还是先broadcast。下面将详细的解释一下这三种不同的join的具体原理。

Hash Join先来看看这样一条SQL语句:

select * from order,item where item.id = order.i_id

  1. 确定Build Table以及Probe Table:这个概念比较重要,Build Table使用join key构建Hash Table,而Probe Table使用join key进行探测,探测成功就可以join在一起。通常情况下,小表会作为Build Table,大表作为Probe Table。此事例中item为Build Table,order为Probe Table;很简单一个Join节点,参与join的两张表是item和order,join key分别是item.id以及order.i_id。现在假设这个Join采用的是hash join算法,整个过程会经历三步:
  1. 构建Hash Table:依次读取Build Table(item)的数据,对于每一行数据根据join key(item.id)进行hash,hash到对应的Bucket,生成hash table中的一条记录。数据缓存在内存中,如果内存放不下需要dump到外存;
  1. 探测:再依次扫描Probe Table(order)的数据,使用相同的hash函数映射Hash Table中的记录,映射成功之后再检查join条件(item.id = order.i_id),如果匹配成功就可以将两者join在一起。

51e1b71de8ed276a1be1eec65c317f17.png

基本流程可以参考上图,这里有两个小问题需要关注:

  1. hash join性能如何?很显然,hash join基本都只扫描两表一次,可以认为o(a+b),较之最极端的笛卡尔集运算a*b,不知甩了多少条街;
  1. 为什么Build Table选择小表?道理很简单,因为构建
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值