Spark SQL Join机制

桀海贝

已于 2022-03-26 22:59:12 修改

阅读量1.6k

点赞数

分类专栏：大数据文章标签：大数据

于 2022-03-24 20:48:08 首次发布

本文链接：https://blog.csdn.net/u012573226/article/details/123719377

版权

大数据专栏收录该内容

4 篇文章 1 订阅

订阅专栏

在平时的工作中，join是一个高频使用的操作，spark有以下几种关联形式

这里不详细赘述每种jion操作。重点探讨这些关联方式实现的关联机制。通常我们会将大表写在前面，小表写在后面，在实现机制里面关联的左表叫做 驱动表，右表叫做基表。有下面3中实现方式。

NLJ：Nested Loop Join

实现机制就是嵌套循环机型对比，左表外层循环，假如有M条记录，右表内存循环，假如N条件记录，算法的复杂度O（M*N）,简单清晰，但效率低。

SMJ：Sort Merge Join

顾名思义，即先排序，再关联。数据排好序之后，数据排序特点，犹如游标卡尺。

①如果关联条件相等，输出2边结果，跳到下一游标行。

②如果关联条件不相等，左表id < 右表id，左表游标跳下一游标行。

③如果关联条件不相等，左表id > 右表id，右表游标跳下一游标行。

算法复杂度O（M+N）,但排序需要消耗性能

HJ：Hash Join

以空间换时间，将基表制作成一个散列表（哈希表），关联的算法复杂度为O（1）。

单机的join，掌握NLJ、SMJ、HJ三种实现机制即可；分布式join的话，还需要考虑是shuffle join，还是Broadcast join

shuffle join

spark shuffle机制根据值对应的hash值，把数据分发到对应的executor上，然后在在executor中执行NLJ、SMJ、HJ三种关联机制。因为shuffle的机制，所以本身的IO开销，shuffle也是大数据场景中的一个瓶颈。

Boradcast Join

spark boradcast join 将右边进行boradcast 把数据分发到driver、executor上进行缓存，，将join机制变成map join，这种机制受到内存资源的限制。这种机制要求广播的数据量不能太大，spark 默认的参数 sql.autoBroadcastJoinThreshold=10M。

综合以上，可看到分布式join可有6中机制。