sparksql中shuffled hash join策略

背景

sparksql中又很多join策略,其中有一个是shuffled hash join.这个用的比较多,但是又说不明白其原理,我各种百度,各种谷歌,最后在stackoverflow找到了一份资料,链接如下:https://www.linkedin.com/pulse/spark-sql-3-common-joins-explained-ram-ghadiyaram
如果不能访问,请自行梯子

原理

先上总图

  • 首先将tableA和tableB进行按照key,进行hash取摸,也就是重新shuffle一次,得到相同数目分区的重新排列,每个桶中的数据(已经为join做好准备,正常情况下直接按照桶的顺序进行join即可得到join结果)
  • 取小表某个分区的数据,进行broadcast到大表对应的分区(举个例子,小表0号分区,构建一个hashtable,然后broadcast到大表0号分区)
  • 每个分区进行进行join即可

场景以及优缺点

场景:大表和小表差异在3倍之内,且不需要排序的sql,因为有broadcast,所以 也要满足大小限制
缺点:因为broacast,所以容易oom
优点:适用场景较多,效率要比merg sort join快上不少

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值