背景
sparksql中又很多join策略,其中有一个是shuffled hash join.这个用的比较多,但是又说不明白其原理,我各种百度,各种谷歌,最后在stackoverflow找到了一份资料,链接如下:https://www.linkedin.com/pulse/spark-sql-3-common-joins-explained-ram-ghadiyaram
如果不能访问,请自行梯子
原理
先上总图
- 首先将tableA和tableB进行按照key,进行hash取摸,也就是重新shuffle一次,得到相同数目分区的重新排列,每个桶中的数据(已经为join做好准备,正常情况下直接按照桶的顺序进行join即可得到join结果)
- 取小表某个分区的数据,进行broadcast到大表对应的分区(举个例子,小表0号分区,构建一个hashtable,然后broadcast到大表0号分区)
- 每个分区进行进行join即可
场景以及优缺点
场景:大表和小表差异在3倍之内,且不需要排序的sql,因为有broadcast,所以 也要满足大小限制
缺点:因为broacast,所以容易oom
优点:适用场景较多,效率要比merg sort join快上不少