Spark:aggregate()、fold()、reduce()方法

1. rdd.aggregate(zeroValue)(seqOp, combOp)

这篇博客:轻松理解 Spark 的 aggregate 方法,讲得非常清晰

个人总结最重要的是理解zeroValue、seqOp和combOp。
zeroValue是初始值,作为seqop和combop的第一次运算的输入。seqOp和 combOp是两个函数,seqOp函数先执行,combOp函数后执行。
注意RDD有几个分片slice,seqOp函数就要执行几次(分片是指将数据分为几份,比如数据1到10,分片数为3,那么各个分片为[1,2,3],[4,5,6],[7,8,9,10])
下面的例子中,rdd分片为2:

JavaRDD<Integer> rdd = sc.parallelize(Arrays.asList(1,2,3,4,5,6,7,8,9,10),2);

对其进行aggregate算子计算

//aggregate方法
System.out.println("aggregate 10结果为" + rdd.aggregate(10,(a,b) -> a+b,(a,b)->a+b));

初始值为10;seqOp和combOp函数的目的都为累加计算,计算过程为:
首先执行seqOP函数,两个slice,因此要在两个分片内执行seqOp:

10 + 1+2+3+4+5 = 25
10 + 6+7+8+9+10 = 50

得到两个结果后,执行combOp函数:

10 +25+50 = 85

在程序中打印结果:
在这里插入图片描述

2. rdd.fold(zeroValue)(func)

在理解了aggregate方法后,fold方法也就不难理解了,zeroValue作为func函数的第一次运算的输入,对RDD中所有元素进行运算。

//fold方法
System.out.println("fold结果为" + rdd.fold(10,(a,b) -> a+b));

初始值同样为10,函数目的为累加,计算过程为:

10 + 1+2+3+4+5 = 25
10 + 6+7+8+9+10 = 50

最后对得到的两个结果还要再累加:

10 + 25+50 = 85

在程序中打印结果:
在这里插入图片描述

3. fold()方法和reduce()方法的区别

fold()方法多了一个zeroValue初始值,而reduce()方法没有。

//reduce函数
System.out.println("reduce结果" + rdd.reduce((x,y) -> x + y));

计算过程:

1+2+3+4+5 = 15
6+7+8+9+10 = 40

40+15 = 55

打印结果为:
在这里插入图片描述

4. aggregate突破返回值类型限制

文章 Spark的fold()和aggregate()函数 中说到:
reduce()和fold(),这两个函数有一个问题,那就是它们的返回值必须与rdd的数据类型相同,啥意思呢?比如刚才那个例子,输入A的数据是Int,那么reduce()和flod()返回的也必须是Int。aggregate()函数就打破了这个限制。比如可以返回(Int, Int)。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值