Spark SQL Join机制

在平时的工作中,join是一个高频使用的操作,spark有以下几种关联形式

这里不详细赘述每种jion操作。重点探讨这些关联方式实现的关联机制。通常我们会将大表写在前面,小表写在后面,在实现机制里面 关联的左表叫做 驱动表,右表叫做基表。有下面3中实现方式。

NLJ:Nested Loop Join

实现机制就是 嵌套循环机型对比,左表外层循环,假如有M条记录,右表内存循环,假如N条件记录,算法的复杂度O(M*N),简单清晰,但效率低。

SMJ:Sort Merge Join

顾名思义,即先排序,再关联。数据排好序之后,数据排序特点,犹如游标卡尺。

①如果关联条件相等,输出2边结果,跳到下一游标行。

②如果关联条件不相等,左表id < 右表id,左表游标跳下一游标行。

③如果关联条件不相等,左表id > 右表id,右表游标跳下一游标行。

算法复杂度O(M+N),但排序需要消耗性能

HJ:Hash Join

以空间换时间,将基表制作成一个散列表(哈希表),关联的算法复杂度为O(1)。

单机的join,掌握NLJ、SMJ、HJ三种实现机制即可;分布式join的话,还需要考虑是shuffle join,还是Broadcast join

shuffle join

 spark shuffle机制根据值对应的hash值,把数据分发到对应的executor上,然后在在executor中执行NLJ、SMJ、HJ三种关联机制。因为shuffle的机制,所以本身的IO开销,shuffle也是大数据场景中的一个瓶颈。

Boradcast Join

spark boradcast join 将右边进行boradcast 把数据分发 到driver、executor上进行缓存,,将join机制变成map join,这种机制受到内存资源的限制。 这种机制要求广播的数据量不能太大,spark 默认的参数 sql.autoBroadcastJoinThreshold=10M。

综合以上,可看到分布式join可有6中机制。

shuffle joinNLJ、SMJ、HJ
broadcast joinNLJ、SMJ、HJ

spark本身支持5种的关联,分别是

等值关联Brocast HJ、Suffle SMJ、Suffle HJ、
不等值关联Boracast NLJ、Shuffle NLJ

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值