Spark算子[09]：aggregateByKey、aggregate详解

最新推荐文章于 2022-07-27 13:46:04 发布

生命不息丶折腾不止

最新推荐文章于 2022-07-27 13:46:04 发布

阅读量1.5k

点赞数

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/leen0304/article/details/78777936

版权

aggregateByKey

aggregateByKey的用法同combineByKey，针对combineByKey的三个参数：

createCombiner: V => C，mergeValue: (C, V) => C，mergeCombiners: (C, C) => C

将createCombiner: V => C替换成一个初始值 C ，相当于aggregateByKey的三个参数为：

zeroValue: C，mergeValue: (C, V) => C，mergeCombiners: (C, C) => C

注意—>>：
需要注意的是，zeroValue这个值一般要求置为，0、“”、Nil。
因为最终的合并结果和分区个数有关。
mergeValue是针对每一个分区进行合并，每个分区都会调用一下初始值zeroValue；
如果初始值zeroValue非空，会导致最终合并每一个分区的值：mergeCombiners的合并结果不同。

源码

/**
  * 底层同样调用的是 combineByKeyWithClassTag
  */
def aggregateByKey[U: ClassTag](zeroValue: U, partitioner: Partitioner)(seqOp: (U, V) => U,
    combOp: (U, U) => U): RDD[(K, U)] = self.withScope {
   

    ...

  combineByKeyWithClassTag[U]((v: V) => cleanedSeqOp(createZero(), v),
    cleanedSeqOp, combOp, partitioner)
}

def aggregateByKey[U](zeroValue: U)(seqOp: (U, V) => U, combOp: (U, U) => U): RDD[(K, U)]

def aggregateByKey[U](zeroValue: U, numPartitions: Int)(seqOp: (U, V) => U, combOp: (U, U) => U): RDD[(K, U)]

def aggregateByKey[U](zeroValue: U, partitioner: Partitioner)(seqOp: (U, V) => U, combOp: (U, U) => U): RDD[(K, U)]

案例同combineByKey

请参考：Spark算子[08]：combineByKey详解

Scala实战案例

/***/
def avgScore(): Unit = {

最低0.47元/天解锁文章

生命不息丶折腾不止

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
Spark算子[09]：aggregateByKey、aggregate详解

aggregateByKeyaggregateByKey的用法同combineByKey，针对combineByKey的三个参数： createCombiner: V => C，mergeValue: (C, V) => C，mergeCombiners: (C, C) => C将createCombiner: V => C替换成一个初始值 C ，相当于aggregateByKey的三个参数为
复制链接

扫一扫