语法
Rdd. aggregate(zeroValue: U)(seqOp: (U, T) ⇒ U, combOp: (U, U) ⇒ U)
zeroValue表示分区初始值
seqOp表示分区内元素与初始值进行的函数
combOp表示每个分区的结果与初始值进行的函数
源码
def aggregate[U](zeroValue : U)(seqOp : scala.Function2[U, T, U], combOp : scala.Function2[U, U, U])(implicit evidence$30 : scala.reflect.ClassTag[U]) : U = { /* compiled code */ }
作用
aggregate函数将每个分区里面的元素通过seqOp和初始值进行聚合,然后用combine函数将每个分区的结果和初始值(zeroValue)进行combine操作。这个函数最终返回的类型不需要和RDD中元素类型一致。
例子
package com.day1
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
object oper {
def main(args: Array[String]): Unit = {
val config:SparkConf = new SparkConf().setMaster("local[*]").setAppName("wordCount")
// 创建上下文对象
val sc = new SparkContext(config)
val rdd = sc.makeRDD(1 to 10,2)
println(rdd.aggregate(0)(_+_,_-_))
// 0+1+2+3+4+5 = 15
// 0+6+7+8+9+10 = 40
// (0-15)+(0-40)
}
}
输入
1 2 3 4 5
6 7 8 9 10
输出
-55