背景
我们知道在spark中使用等值连接多个表的数据时,底层的实现是使用SortMergeJoin连接算法实现,怎么理解这个排序合并连接算法呢?排序的目的是什么呢,合并的意义又何在呢?本文就是想回答这个问题
原理
在spark中使用等值连接多个表的数据时,所使用的SortMergeJoin的shuffle算法严格来讲应该叫做分区排序合并连接算法,也就是分区是后面排序的基础,排序只是在分区的基础上面进行的排序,当排好序后,后续进行的合并操作就可以把相同key的行进行求和或者求平均值等合并操作,整体示意图如下所示
整个流程的顺序为:
步骤一: 分区,这里一般是hash分区,使用key的hash值对分区总数求余数—备注:还有另一种常见的分区方式是范围分区
步骤二: 排序,这里会对每个分区的数据按key排好序,排好序的目的是为了按照key聚合
步骤三: 合并,这里会对相同的key进行聚合
备注:不管是合并排序连接还是普通的group by等shuffle操作,都涉及数据迁移,这里我们需要意识到跨网络的数据迁移是发生在分区阶段的,比如当前划分好分区一,分区二,分区三后,分区一的数据需要前面的所有数据节点把属于分区一的数据都发送过来,同理,分区二的数据也需要前面的所有数据节点把属于分区二的数据都发送过来,所以我们所说的shuffle操作需要跨网络传送数据是发生在分区阶段