PySpark-aggregate函数说明

夜晓楼

于 2016-10-08 15:58:18 发布

阅读量5k

点赞数 6

分类专栏： Spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a1628864705/article/details/52757384

版权

Spark 专栏收录该内容

3 篇文章

订阅专栏

本文详细解析了 Spark 中 aggregate 函数的工作原理，包括如何通过 seqOp 和 combOp 对各分区内的数据进行局部聚合，以及如何将不同分区的数据进行全局合并。通过两个具体的示例展示了函数的实现过程和结果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

聚集各分区内的元素，并利用combOp和zerovalue函数将各分区合并

The functions op(t1, t2) is allowed to modify t1 and return it as its result value to avoid object allocation; however, it should not modify t2 .

函数 op(t1, t2) 允许修改t1，并且将其返回，这样可以避免重新分配对象。它不能修改t2

1、>>> seqOp = ( lambda x, y: (x[ 0 ] + y, x[ 1 ] + 1 ))

2、>>> combOp = ( lambda x, y: (x[ 0 ] + y[ 0 ], x[ 1 ] + y[ 1 ]))

3、>>> sc . parallelize([ 1 , 2 , 3 , 4 ]，4) . aggregate(( 0 , 0 ), seqOp, combOp)

(10, 4)

4、>>> sc . parallelize([ 1, 2, 3, 4，5 ]，3) . aggregate((1,1 ), seqOp, combOp)

(19,9）

依次解释上述函数

1、建立各分区内的聚集函数，又初始值依次与分区内的函数做操作

2、建立各分区间的组合函数，

3、使用aggregate 样例1

4、使用aggregate 样例2

样例1 解释：

分区数： 4

0 ： 1

1 ： 2

2 ： 3

3 ： 4

利用zerovalue （0,0）和 seqOp 对各分区进行聚集：

0 ：（1，1）

1 ：（2 , 1）

2 ：（3，1）

3：（4 , 1）

利用 zerovalue和combOp 进行各分区间的聚合：

（0,0） + （1,1）+ （2,1）+ （3,1）+ （4,1） = （10,4）

样例2 解释：

分区数： 3

0 ： 1，2

1 ： 3，4

2 ： 5

利用zerovalue （0,0）和 seqOp 对各分区进行聚集：

0 ：（1,1）+(1,1)+(2,1) = (4,3)

1 ： (1,1)+(3,1)+(4,1) = (8,3)

2 ： (1,1) + (5,1) = (6,2)

利用 zerovalue和combOp 进行各分区间的聚合：

(1,1) + (4,3) + (8,3) + (6,2) = (19,9)

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。