spark-单RDD算子-聚合算子

33 篇文章 1 订阅

一、aggregate

顾名思义,聚合,但不同于reduce这种,aggregate粒度更细,可以设置分区内数据的聚合函数和分区之间的聚合函数。也就是说,aggregate需要2个函数参数,同时,也需要1个基准值。
聚合,就需要多变少,也就是说,需要累加计算。

格式

zeroValue的类型即结果的类型

def aggregate[U]
(zeroValue: U)
(
seqOp: (U, T) ⇒ U, //分区内聚合函数,U是zeroValue的类型,T是分区内数据的类型
combOp: (U, U) ⇒ U //分区间聚合函数,U是zeroValue的类型,U是返回值类型。
)
(implicit arg0: ClassTag[U]): U

1. example1

{1} 数据准备

创建1个2个分区的rdd。第一个分区中包含5,4,3,2,1、第二个分区中包含10,9,8,7,6

var rdd1 = sc.makeRDD(1 to 10,2)
rdd1.mapPartitionsWithIndex{
        (partIdx,iter) => {
          var part_map = scala.collection.mutable.Map[String,List[Int]]()
            while(iter.hasNext){
              var part_name = "part_" + partIdx;
              var elem = iter.next()
              if(part_map.contains(part_name)) {
                var elems = part_map(part_name)
                elems ::= elem
                part_map(part_name) = elems
              } else {
                part_map(part_name) = List[Int]{elem}
              }
            }
            part_map.iterator
           
        }
      }.collect
res16: Array[(String, List[Int])] = Array((part_0,List(5, 4, 3, 2, 1)), (part_1,List(10, 9, 8, 7, 6)))

{2} 基准值是1,分区内聚合函数是累加,分区间聚合函数还是累加。结果是58

scala> rdd1.aggregate(1)(
     |           {(x : Int,y : Int) => x + y}, 
     |           {(a : Int,b : Int) => a + b}
     |     )
res17: Int = 58
计算过程
  1. 先在每个分区中迭代执行 (x : Int,y : Int) => x + y 并且使用zeroValue的值1。
    即:part_0中 zeroValue+5+4+3+2+1 = 1+5+4+3+2+1 = 16
  2. part_1中 zeroValue+10+9+8+7+6 = 1+10+9+8+7+6 = 41
  3. 再将两个分区的结果合并(a : Int,b : Int) => a + b ,并且使用zeroValue的值1。
    即:zeroValue+part_0+part_1 = 1 + 16 + 41 = 58

{3} 基准值是2,分区内聚合函数是累加,分区间聚合函数还是累乘。

scala> rdd1.aggregate(2)(
     |           {(x : Int,y : Int) => x + y}, 
     |           {(a : Int,b : Int) => a * b}
     |     )
res18: Int = 1428
计算过程

这次zeroValue=2
part_0中 zeroValue+5+4+3+2+1 = 2+5+4+3+2+1 = 17
part_1中 zeroValue+10+9+8+7+6 = 2+10+9+8+7+6 = 42
最后:zeroValuepart_0part_1 = 2 * 17 * 42 = 1428

二、fold

fold是aggregate的简化,将aggregate中的seqOp和combOp使用同一个函数op。

def fold(zeroValue: T)(op: (T, T) ⇒ T): T

1. example

scala> rdd1.fold(1)(
     |       (x,y) => x + y    
     |     )
res19: Int = 58

等价于

scala> rdd1.aggregate(1)(
     |           {(x,y) => x + y}, 
     |           {(a,b) => a + b}
     |     )
res20: Int = 58
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值