aggregate，aggregateByKey

最新推荐文章于 2023-08-02 03:04:32 发布

李泽辰

最新推荐文章于 2023-08-02 03:04:32 发布

阅读量527

点赞数

分类专栏： hadoop

hadoop 专栏收录该内容

44 篇文章 0 订阅

订阅专栏

翻译过来就是：aggregate先对每个分区的元素做聚集，然后对所有分区的结果做聚集，聚集过程中，使用的是给定的聚集函数以及初始值”zero value”。这个函数能返回一个与原始RDD不同的类型U，因此，需要一个合并RDD类型T到结果类型U的函数，还需要一个合并类型U的函数。这两个函数都可以修改和返回他们的第一个参数，而不是重新新建一个U类型的参数以避免重新分配内存。
参数zeroValue：seqOp运算符的每个分区的累积结果的初始值以及combOp运算符的不同分区的组合结果的初始值 - 这通常将是初始元素（例如“Nil”表的列表连接或“0”表示求和）

参数seqOp：每个分区累积结果的聚集函数。
参数combOp：一个关联运算符用于组合不同分区的结果

val list = List(1,2,3,4,5,6,7,8,9)
val (mul, sum, count) = sc.parallelize(list, 2).aggregate((1, 0, 0))(
    (acc, number) => (acc._1 * number, acc._2 + number, acc._3 + 1),
    (x, y) => (x._1 * y._1, x._2 + y._2, x._3 + y._3)
        )
    (sum / count, mul)

在常见的求均值的基础上稍作了变动，sum是求和，count是累积元素的个数，mul是求各元素的乘积。
解释一下具体过程：
1.初始值是(1, 0 ,0)
2.number是函数中的T，也就是List中的元素，此时类型为Int。而acc的类型为(Int, Int, Int)。acc._1 * num是各元素相乘(初始值为1)，acc._2 + number为各元素相加。
3.sum / count为计算平均数。

aggregate是针对序列的操作，aggregateByKey则是针对k,v对的操作。顾名思义，aggregateByKey则是针对key做aggregate操作。

---------------------
作者：bitcarmanlee
来源：CSDN
原文：https://blog.csdn.net/bitcarmanlee/article/details/78088304
版权声明：本文为博主原创文章，转载请附上博文链接！

李泽辰

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
aggregate，aggregateByKey

翻译过来就是：aggregate先对每个分区的元素做聚集，然后对所有分区的结果做聚集，聚集过程中，使用的是给定的聚集函数以及初始值”zero value”。这个函数能返回一个与原始RDD不同的类型U，因此，需要一个合并RDD类型T到结果类型U的函数，还需要一个合并类型U的函数。这两个函数都可以修改和返回他们的第一个参数，而不是重新新建一个U类型的参数以避免重新分配内存。参数zeroValue：...
复制链接

扫一扫