Spark算子：Action之aggregate、fold、lookup

最新推荐文章于 2023-01-05 15:01:19 发布

cleargy

最新推荐文章于 2023-01-05 15:01:19 发布

阅读量293

点赞数

分类专栏： scala spark 文章标签： Spark Scala RDD

本文链接：https://blog.csdn.net/csmnjk/article/details/82789855

版权

scala 同时被 2 个专栏收录

28 篇文章 0 订阅

订阅专栏

spark

26 篇文章 0 订阅

订阅专栏

1、aggregate：def aggregate[U](zeroValue: U)(seqOp: (U, T) ⇒ U, combOp: (U, U) ⇒ U)(implicit arg0: ClassTag[U]): U

该函数用于聚合RDD中的元素，先使用seqOp将RDD中每个分区中的T类型元素聚合成U类型，再使用combOp将之前每个分区聚合后的U类型聚合成U类型，特别注意seqOp和combOp都会使用zeroValue的值，zeroValue的类型为U。

var rdd1 = sc.makeRDD(1 to 10,2)
rdd1.mapPartitionsWithIndex{
        (partIdx,iter) => {
          var part_map = scala.collection.mutable.Map[String,List[Int]]()
            while(iter.hasNext){
              var part_name = "part_" + partIdx;
              var elem = iter.next()
              if(part_map.contains(part_name)) {
                var elems = part_map(part_name)
                elems ::= elem
                part_map(part_name) = elems
              } else {
                part_map(part_name) = List[Int]{elem}
              }
            }
            part_map.iterator
           
        }
      }.collect
res16: Array[(String, List[Int])] = Array((part_0,List(5, 4, 3, 2, 1)), (part_1,List(10, 9, 8, 7, 6)))

scala> rdd1.aggregate(1)(
     |           {(x : Int,y : Int) => x + y}, 
     |           {(a : Int,b : Int) => a + b}
     |     )
res17: Int = 58

计算过程：

（1）先在每个分区中迭代执行 (x : Int,y : Int) => x + y 并且使用zeroValue的值1

即：part_0中 zeroValue+5+4+3+2+1 = 1+5+4+3+2+1 = 16

part_1中 zeroValue+10+9+8+7+6 = 1+10+9+8+7+6 = 41

（2）再将两个分区的结果合并(a : Int,b : Int) => a + b ，并且使用zeroValue的值1

即：zeroValue+part_0+part_1 = 1 + 16 + 41 = 58

scala> rdd1.aggregate(2)(
     |           {(x : Int,y : Int) => x + y}, 
     |           {(a : Int,b : Int) => a * b}
     |     )
res18: Int = 1428

这次zeroValue=2

part_0中 zeroValue+5+4+3+2+1 = 2+5+4+3+2+1 = 17

part_1中 zeroValue+10+9+8+7+6 = 2+10+9+8+7+6 = 42

最后：zeroValue*part_0*part_1 = 2 * 17 * 42 = 1428

zeroValue不仅确定了U的类型，也会对结果产生至关重要的影响，使用时候要特别注意。

2、fold：def fold(zeroValue: T)(op: (T, T) ⇒ T): T

该函数是aggregate的简化，将aggregate中的seqOp和combOp使用同一个函数op。

scala> rdd1.fold(1)(
     |       (x,y) => x + y    
     |     )
res19: Int = 58
 
##结果与使用aggregate的第一个例子一样，即：
scala> rdd1.aggregate(1)(
     |           {(x,y) => x + y}, 
     |           {(a,b) => a + b}
     |     )
res20: Int = 58

3、lookup：def lookup(key: K): Seq[V]

lookup用于(K,V)类型的RDD,指定K值，返回RDD中该K对应的所有V值。

scala> var rdd1 = sc.makeRDD(Array(("A",0),("A",2),("B",1),("B",2),("C",1)))
rdd1: org.apache.spark.rdd.RDD[(String, Int)] = ParallelCollectionRDD[0] at makeRDD at :21
 
scala> rdd1.lookup("A")
res0: Seq[Int] = WrappedArray(0, 2)
 
scala> rdd1.lookup("B")
res1: Seq[Int] = WrappedArray(1, 2)

cleargy

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark算子：Action之aggregate、fold、lookup

1、aggregate：def aggregate[U](zeroValue: U)(seqOp: (U, T) ⇒ U, combOp: (U, U) ⇒ U)(implicit arg0: ClassTag[U]): U该函数用于聚合RDD中的元素，先使用seqOp将RDD中每个分区中的T类型元素聚合成U类型，再使用combOp将之前每个分区聚合后的U类型聚合成U类型，特别注意seqOp和...
复制链接

扫一扫

专栏目录