spark 合并排序连接

背景

我们知道在spark中使用等值连接多个表的数据时,底层的实现是使用SortMergeJoin连接算法实现,怎么理解这个排序合并连接算法呢?排序的目的是什么呢,合并的意义又何在呢?本文就是想回答这个问题

原理

在spark中使用等值连接多个表的数据时,所使用的SortMergeJoin的shuffle算法严格来讲应该叫做分区排序合并连接算法,也就是分区是后面排序的基础,排序只是在分区的基础上面进行的排序,当排好序后,后续进行的合并操作就可以把相同key的行进行求和或者求平均值等合并操作,整体示意图如下所示
在这里插入图片描述
整个流程的顺序为:
步骤一: 分区,这里一般是hash分区,使用key的hash值对分区总数求余数—备注:还有另一种常见的分区方式是范围分区
步骤二: 排序,这里会对每个分区的数据按key排好序,排好序的目的是为了按照key聚合
步骤三: 合并,这里会对相同的key进行聚合

备注:不管是合并排序连接还是普通的group by等shuffle操作,都涉及数据迁移,这里我们需要意识到跨网络的数据迁移是发生在分区阶段的,比如当前划分好分区一,分区二,分区三后,分区一的数据需要前面的所有数据节点把属于分区一的数据都发送过来,同理,分区二的数据也需要前面的所有数据节点把属于分区二的数据都发送过来,所以我们所说的shuffle操作需要跨网络传送数据是发生在分区阶段

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值