首先,让我们先思考一个问题:reduceByKey、foldByKey、aggregateByKey、combineByKey的区别?
解释: 1.reduceByKey: 相同key的第一个数据不进行任何计算,分区内和分区间计算规则相同
2.foldByKey: 相同key的第一个数据和初始值进行分区内计算,分区内和分区间计算规则相同
3.AggregateByKey:相同key的第一个数据和初始值进行分区内计算,分区内和分区间计算规则可以不相同
4.CombineByKey:当计算时,发现数据结构不满足要求时,可以让第一个数据转换结构。分区内和分区间计算规则不相同
为了更直白的进行解释,取出了部分源码,并做了直白的操作(删减了一些没有影响到的源码)
注意下面源码只是为了易懂进行了备注,实际情况需要实际了解—>>> 根据上述简化的源码可以分析得到,其实这四种聚合算子底层的实现都是combineByKey,只是其中的参数发生了系统的变化,目的是为了实现多个计算场景