Spark算子[11]:reduce、aggregate、fold 详解

以上三个方法操作都是对RDD进行的聚合操作。

1、reduce()与fold()方法是对同种元素类型数据的RDD进行操作,即必须同构。其返回值返回一个同样类型的新元素。

val nums = Array(1,2,3,4,5,6,7,8,9)
val numsRdd = sc.parallelize(nums,3)
val reduce = numsRdd.reduce((a,b) => a+b)

2、fold()与reduce()类似,接收与reduce接收的函数签名相同的函数,另外再加上一个初始值作为第一次调用的结果。(例如,加法初始值应为0,乘法初始值应为1)

val rdd = sc.makeRDD(List("a","a","b","b"),4)
val res = rdd.fold("")(_+_)

具体案例请参考: Spark算子[10]:foldByKey、fold 源码实例详解


3、aggregate() 方法可以对两个不同类型的元素进行聚合,即支持异构。
它先聚合每一个分区里的元素,然后将所有结果返回回来,再用一个给定的conbine方法以及给定的初始值zero value进行聚合。

def aggregate [U: ClassTag] (zeroValue: U) (seqOp: (U,T)=>U,combOp: (U,U)=>U):U

由以上可以看到,(zeroValue: U)是给定一个初值,后半部分有两个函数,seqOp与combOp。
seqOp相当于是在各个分区里进行的聚合操作,它支持(U,T)=>U,也就是支持不同类型的聚合。
combOp是将seqOp后的结果再进行聚合,此时的结果全部是U类,只能进行同构聚合。

var rdd1 = sc.makeRDD(1 to 10,2)
rdd1.mapPartitionsWithIndex{
        (partIdx,iter) => {
          var part_map = scala.collection.mutable.Map[String,List[Int]]()
            while(iter.hasNext){
              var part_name = "part_" + partIdx;
              var elem = iter.next()
              if(part_map.contains(part_name)) {
                var elems = part_map(part_name)
                elems ::= elem
                part_map(part_name) = elems
              } else {
                part_map(part_name) = List[Int]{elem}
              }
            }
            part_map.iterator
        }
      }.collect

res16: Array[(String, List[Int])] = Array((part_0,List(5, 4, 3, 2, 1)), (part_1,List(10, 9, 8, 7, 6)))

##第一个分区中包含5,4,3,2,1

##第二个分区中包含10,9,8,7,6

scala> rdd1.aggregate(1)(
     |           {(x : Int,y : Int) => x + y}, 
     |           {(a : Int,b : Int) => a + b}
     |     )
res17: Int = 58

结果为什么是58,看下面的计算过程:

##先在每个分区中迭代执行 (x : Int,y : Int) => x + y 并且使用zeroValue的值1

## part_0中 zeroValue+5+4+3+2+1 = 1+5+4+3+2+1 = 16

## part_1中 zeroValue+10+9+8+7+6 = 1+10+9+8+7+6 = 41

##再将两个分区的结果合并(a : Int,b : Int) => a + b ,并且使用zeroValue的值1

##即:zeroValue+part_0+part_1 = 1 + 16 + 41 = 58


fold

def fold(zeroValue: T)(op: (T, T) ⇒ T): T

fold是aggregate的简化,将aggregate中的seqOp和combOp使用同一个函数op。

scala> rdd1.fold(1)(
     |       (x,y) => x + y    
     |     )
res19: Int = 58

##结果同上面使用aggregate的第一个例子一样,即:
scala> rdd1.aggregate(1)(
     |           {(x,y) => x + y}, 
     |           {(a,b) => a + b}
     |     )
res20: Int = 58

案例参考与:lxw的大数据田地

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: 这些都是 Flink 中的数据转换操作,它们可以对数据流进行聚合、合并、转换等操作。其中 reducefold 都是对数据流中的元素进行聚合操作,不同之处在于 reduce 是基于两个元素进行聚合,而 fold 是基于一个初始值和一个元素进行聚合。Aggregate 则是对数据流中的元素进行合并操作,可以使用预定义的聚合函数或自定义聚合函数。Apply 则是对数据流中的每个元素进行转换操作,可以使用预定义的函数或自定义函数。 ### 回答2: Flink是一个分布式大数据处理框架,提供了多种操作函数来对数据进行处理。其中reduceaggregatefold和apply都是常用的操作函数。 1. Reduce函数(缩减函数):reduce函数用于将输入的多个元素进行聚合操作,返回一个单一的结果。它是一个折叠操作,将每个输入元素依次传递给聚合函数,产生一个累积的结果。这个函数通常用于对数据流中的元素进行求和、求平均、求最大值等简单的聚合操作。 2. Aggregate函数(累计函数):aggregate函数与reduce函数类似,也是用于将输入的多个元素进行聚合操作。不同之处在于,aggregate函数可以接收一个初始值,对输入元素进行累加操作,并将结果返回。通常情况下,aggregate函数用于实现更加复杂的聚合操作,例如计算每个窗口的平均值、最大值等。 3. Fold函数(折叠函数):fold函数是reduce函数的一种特殊形式,它将输入的元素进行聚合操作,并返回一个和输入元素类型相同的结果。与reduce函数不同的是,fold函数接收一个初始值,将其作为第一个输入元素,然后依次将输入元素进行折叠操作,最终返回结果。通常情况下,fold函数用于将数据流中的元素进行聚合,并返回一个新的结果。 4. Apply函数(应用函数):apply函数是一个通用的操作函数,它可以接收任意的输入和输出类型,并对数据进行处理。apply函数通常用于实现自定义的数据转换、筛选或其他复杂的处理逻辑。我们可以在apply函数中编写自己的业务逻辑,对数据流进行任意的处理操作。 总而言之,reduceaggregatefold和apply函数都是用于对Flink数据流进行处理和聚合的常用操作函数,它们在不同的场景下有不同的应用和效果。 ### 回答3: Flink是一个用于大规模流数据处理和批处理的流行开源框架。在Flink中,reduceaggregatefold和apply是用于数据处理的操作函数。 1. Reduce(规约):Reduce函数用于合并流数据集中的元素,将多个元素聚合成一个元素。Reduce操作将应用到每个流数据集的每个元素上,并将结果进行合并,返回一个新的流数据集。例如,可以使用Reduce函数来计算流数据集中的元素的总和或最大值。 2. Aggregate(聚合):Aggregate函数类似于Reduce函数,但是它可以进行更复杂的聚合操作。Aggregate操作将一个输入数据集聚合为一个或多个结果,并可以带有中间状态。它可以用于实现统计操作,例如计算平均值或中位数。 3. Fold(折叠):Fold函数与Reduce函数类似,它也是将多个元素聚合成一个元素。但是与Reduce函数不同的是,Fold函数可以指定一个初始值,并对每个元素应用聚合操作。Fold函数将应用到每个流数据集的每个元素上,并将结果进行合并,返回一个新的流数据集。例如,可以使用Fold函数来计算流数据集中元素的累加和。 4. Apply(应用):Apply函数用于在流数据集上应用用户自定义的函数。它可以接受一个或多个输入流数据集,并生成一个或多个输出流数据集。Apply函数在流数据集上执行指定的用户定义的操作,可以是映射、过滤、转换等。通过Apply函数,用户可以根据自己的需求对流数据进行灵活的处理和操作。 总结:flink中的reduceaggregatefold和apply是用于对流数据集进行处理和操作的函数。它们分别用于合并、聚合、折叠和应用操作,可以帮助用户实现各种数据处理需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值