嘴说手画Spark的Bykey操作-groupByKey、reduceByKey、aggregateByKey 和 sortByKey

之前写过一篇文章分析Spark Shuffle的原理,知道了Shuffle是性能杀手的原因,但在实际业务中,Shuffle操作通常不可避免,毕竟Spark基础的用途就是对大数据进行统计分析,由于数据分布的分散性,导致相同Key的数据汇集到一起进行计算,必然要在网络进行传输。

有4个常见的导致Shuffle的算子,分别是 groupByKeyreduceByKeyaggregateByKeysortByKey

一,groupByKey

groupByKey实现了分组收集,即将相同的key的数据收集到一起,相同的key可能分布在多个节点上,所以需要把相同的key通过网络拉取到同一个节点才能收集。

下图是groupByKey的计算过程示意图,可以看出有网络分发,结果是将相同的key的数据汇集为(key,value集合的形式)。groupByKey是一个效率很低的算子,因为它会导致数据在全网范围内的分发,要慎用。

在这里插入图片描述

二,reduceByKey

reduceByKey是一个使用频率比较高的算子,和groupByKey的区别在于reduceByKey会对value值进行聚合操作,且这种聚合操作首先在map端进行,聚合后的数据量会减少,相同key的结果会通过网络分发到同一个节点,然后进行最后一步的聚合。

下图是示意图,可以看见Shuffle过程,也可以看见和groupByKey的不同:在Map端的聚合和网络传输数量的减少。
在这里插入图片描述# 三,aggregateByKey

groupByKey、reduceByKey的底层是aggregateByKey ,其比前二者更灵活,它可以为Map、Reduce阶段指定不同的聚合函数。

比如下面的示意图显示,在Map端进行sum操作,在reduce端进行max操作。
在这里插入图片描述
groupByKey、reduceByKey是在Map、Reduce端聚合函数相同的情况下的特殊的aggregateByKey操作。

四,sortByKey

望词生意,sortByKey是对数据按key进行排序。这个算子也会导致数据在全网范围的分发,是一个效率比较低的算子。

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小手追梦

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值