讨论Spark中RDD四种转换聚合算子的区别(源码角度)

首先,让我们先思考一个问题:reduceByKey、foldByKey、aggregateByKey、combineByKey的区别?

解释: 1.reduceByKey: 相同key的第一个数据不进行任何计算,分区内和分区间计算规则相同

2.foldByKey: 相同key的第一个数据和初始值进行分区内计算,分区内和分区间计算规则相同

3.AggregateByKey:相同key的第一个数据和初始值进行分区内计算,分区内和分区间计算规则可以不相同

4.CombineByKey:当计算时,发现数据结构不满足要求时,可以让第一个数据转换结构。分区内和分区间计算规则不相同

为了更直白的进行解释,取出了部分源码,并做了直白的操作(删减了一些没有影响到的源码)

注意下面源码只是为了易懂进行了备注,实际情况需要实际了解—>>> 在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述 根据上述简化的源码可以分析得到,其实这四种聚合算子底层的实现都是combineByKey,只是其中的参数发生了系统的变化,目的是为了实现多个计算场景

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值