spark-单RDD算子-聚合算子

最新推荐文章于 2022-12-02 02:07:06 发布

zdkdchao

最新推荐文章于 2022-12-02 02:07:06 发布

阅读量1k

点赞数

分类专栏： spark API 文章标签： spark api

本文链接：https://blog.csdn.net/qq_34224565/article/details/104859424

版权

spark 同时被 2 个专栏收录

53 篇文章 2 订阅

订阅专栏

API

33 篇文章 1 订阅

订阅专栏

一、aggregate

顾名思义，聚合，但不同于reduce这种，aggregate粒度更细，可以设置分区内数据的聚合函数和分区之间的聚合函数。也就是说，aggregate需要2个函数参数，同时，也需要1个基准值。
聚合，就需要多变少，也就是说，需要累加计算。

格式

zeroValue的类型即结果的类型

def aggregate[U]
(zeroValue: U)
(
seqOp: (U, T) ⇒ U, //分区内聚合函数，U是zeroValue的类型，T是分区内数据的类型
combOp: (U, U) ⇒ U //分区间聚合函数，U是zeroValue的类型，U是返回值类型。
)
(implicit arg0: ClassTag[U]): U

1. example1

{1} 数据准备

创建1个2个分区的rdd。第一个分区中包含5,4,3,2,1、第二个分区中包含10,9,8,7,6

var rdd1 = sc.makeRDD(1 to 10,2)
rdd1.mapPartitionsWithIndex{
        (partIdx,iter) => {
          var part_map = scala.collection.mutable.Map[String,List[Int]]()
            while(iter.hasNext){
              var part_name = "part_" + partIdx;
              var elem = iter.next()
              if(part_map.contains(part_name)) {
                var elems = part_map(part_name)
                elems ::= elem
                part_map(part_name) = elems
              } else {
                part_map(part_name) = List[Int]{elem}
              }
            }
            part_map.iterator
           
        }
      }.collect
res16: Array[(String, List[Int])] = Array((part_0,List(5, 4, 3, 2, 1)), (part_1,List(10, 9, 8, 7, 6)))

{2} 基准值是1，分区内聚合函数是累加，分区间聚合函数还是累加。结果是58

scala> rdd1.aggregate(1)(
     |           {(x : Int,y : Int) => x + y}, 
     |           {(a : Int,b : Int) => a + b}
     |     )
res17: Int = 58

计算过程

先在每个分区中迭代执行 (x : Int,y : Int) => x + y 并且使用zeroValue的值1。
即：part_0中 zeroValue+5+4+3+2+1 = 1+5+4+3+2+1 = 16
part_1中 zeroValue+10+9+8+7+6 = 1+10+9+8+7+6 = 41
再将两个分区的结果合并(a : Int,b : Int) => a + b ，并且使用zeroValue的值1。
即：zeroValue+part_0+part_1 = 1 + 16 + 41 = 58

{3} 基准值是2，分区内聚合函数是累加，分区间聚合函数还是累乘。

scala> rdd1.aggregate(2)(
     |           {(x : Int,y : Int) => x + y}, 
     |           {(a : Int,b : Int) => a * b}
     |     )
res18: Int = 1428

计算过程

这次zeroValue=2
part_0中 zeroValue+5+4+3+2+1 = 2+5+4+3+2+1 = 17
part_1中 zeroValue+10+9+8+7+6 = 2+10+9+8+7+6 = 42
最后：zeroValuepart_0part_1 = 2 * 17 * 42 = 1428

二、fold

fold是aggregate的简化，将aggregate中的seqOp和combOp使用同一个函数op。

def fold(zeroValue: T)(op: (T, T) ⇒ T): T

1. example

scala> rdd1.fold(1)(
     |       (x,y) => x + y    
     |     )
res19: Int = 58

等价于

scala> rdd1.aggregate(1)(
     |           {(x,y) => x + y}, 
     |           {(a,b) => a + b}
     |     )
res20: Int = 58

zdkdchao

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark-单RDD算子-聚合算子

spark-单RDD聚合算子aggregatefold
复制链接

扫一扫

专栏目录

spark-单RDD算子-聚合算子

一、aggregate

格式

1. example1

{1} 数据准备

{2} 基准值是1，分区内聚合函数是累加，分区间聚合函数还是累加。结果是58

计算过程

{3} 基准值是2，分区内聚合函数是累加，分区间聚合函数还是累乘。

计算过程

二、fold

1. example

“相关推荐”对你有帮助么？