Spark：aggregate()、fold()、reduce()方法_spark reduce()方法-CSDN博客

本文链接：https://blog.csdn.net/chandelierds/article/details/108012391

1. rdd.aggregate(zeroValue)(seqOp, combOp)

个人总结最重要的是理解zeroValue、seqOp和combOp。
zeroValue是初始值，作为seqop和combop的第一次运算的输入。seqOp和 combOp是两个函数，seqOp函数先执行，combOp函数后执行。
注意RDD有几个分片slice，seqOp函数就要执行几次（分片是指将数据分为几份，比如数据1到10，分片数为3，那么各个分片为[1,2,3]，[4,5,6]，[7,8,9,10]）
下面的例子中，rdd分片为2：

JavaRDD<Integer> rdd = sc.parallelize(Arrays.asList(1,2,3,4,5,6,7,8,9,10),2);

对其进行aggregate算子计算

//aggregate方法
System.out.println("aggregate 10结果为" + rdd.aggregate(10,(a,b) -> a+b,(a,b)->a+b));

初始值为10；seqOp和combOp函数的目的都为累加计算，计算过程为：
首先执行seqOP函数，两个slice，因此要在两个分片内执行seqOp：

10 + 1+2+3+4+5 = 25
10 + 6+7+8+9+10 = 50

得到两个结果后，执行combOp函数：

10 +25+50 = 85

在程序中打印结果：
在这里插入图片描述

2. rdd.fold(zeroValue)(func)

在理解了aggregate方法后，fold方法也就不难理解了，zeroValue作为func函数的第一次运算的输入，对RDD中所有元素进行运算。

//fold方法
System.out.println("fold结果为" + rdd.fold(10,(a,b) -> a+b));

初始值同样为10，函数目的为累加，计算过程为：

10 + 1+2+3+4+5 = 25
10 + 6+7+8+9+10 = 50

最后对得到的两个结果还要再累加：

10 + 25+50 = 85

在程序中打印结果：
在这里插入图片描述

3. fold()方法和reduce()方法的区别

fold()方法多了一个zeroValue初始值，而reduce()方法没有。

//reduce函数
System.out.println("reduce结果" + rdd.reduce((x,y) -> x + y));

计算过程：

1+2+3+4+5 = 15
6+7+8+9+10 = 40

40+15 = 55

打印结果为：
在这里插入图片描述

4. aggregate突破返回值类型限制

文章 Spark的fold()和aggregate()函数中说到：
reduce()和fold()，这两个函数有一个问题，那就是它们的返回值必须与rdd的数据类型相同，啥意思呢？比如刚才那个例子，输入A的数据是Int，那么reduce()和flod()返回的也必须是Int。aggregate()函数就打破了这个限制。比如可以返回(Int, Int)。