SPARK里的reduce(),fold(),以及aggregate()

原创 2016年08月29日 16:27:40

以上三个方法操作都是对RDD进行的聚合操作。

  • reduce()与fold()方法是对同种元素类型数据的RDD进行操作,即必须同构。其返回值返回一个同样类型的新元素。
num=sc.parallelize([1,2,3,4])
sum=num.reduce(lambda x,y: x+y)

fold()与reduce()类似,接收与reduce接收的函数签名相同的函数,另外再加上一个初始值作为第一次调用的结果。(例如,加法初始值应为0,乘法初始值应为1)

num.fold(0,lambda x,y:x+y)
  • aggregate()方法可以对两个不同类型的元素进行聚合,即支持异构。

首先,看看aggregate的官方定义:

Aggregate the elements of each partition, and then the results for all the partitions, using a given combine functions and a neutral “zero value.”

它先聚合每一个分区里的元素,然后将所有结果返回回来,再用一个给定的conbine方法以及给定的初始值zero value进行聚合。

函数原型如下:

def aggregate [U: ClassTag] (zeroValue: U) (seqOp: (U,T)=>U,combOp: (U,U)=>U):U

由以上可以看到,(zeroValue: U)是给定一个初值,后半部分有两个函数,seqOp与combOp。
seqOp相当于是在各个分区里进行的聚合操作,它支持(U,T)=>U,也就是支持不同类型的聚合。
combOp是将seqOp后的结果再进行聚合,此时的结果全部是U类,只能进行同构聚合。

引用官方代码:

>>> seqOp = (lambda x, y: (x[0] + y, x[1] + 1))
>>> combOp = (lambda x, y: (x[0] + y[0], x[1] + y[1]))
>>> sc.parallelize([1, 2, 3, 4]).aggregate((0, 0), seqOp, combOp)
(10, 4)
>>> sc.parallelize([]).aggregate((0, 0), seqOp, combOp)
(0, 0)

seqOp方法是对单独一个分区内的数据进行累加及计数,所以lambda表达式为x[0]+y,x[1]+1
而combOp方法则是对以上每个分区的结果进行聚合汇总。这里要注意参数的写法,x[0]+y[0],因为是对每一组序列的累加,所以不再用单独的y来表示了。

版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

scala fold系列函数及 sparkRDD fold 操作解析

scala 的fold系列 函数用起来比较方便,这里对比总结一下。 fold fold 的定义: def fold[A1 >: A](z: A1)(op: (A1, A1) => A1): A1 fo...

Spark RDD的fold和aggregate为什么是两个API?为什么不是一个foldLeft?

欢迎关注我的新博客地址:http://cuipengfei.me/blog/2014/10/31/spark-fold-aggregate-why-not-foldleft/ 大家都知道Sc...

fold/foldLeft/foldRight区别和联系

1. fold介绍从本质上说,fold函数将一种格式的输入数据转化成另外一种格式返回。fold, foldLeft和foldRight这三个函数除了有一点点不同外,做的事情差不多。我将在下文解释它们的...

Spark算子:RDD行动Action操作(3)–aggregate、fold、lookup

aggregate def aggregate[U](zeroValue: U)(seqOp: (U, T) ⇒ U, combOp: (U, U) ⇒ U)(implicit arg0: Cl...

fold函数和reduce函数的区别(不特指spark)

In a fold over a collection, the accumulator type may be different than the type of the collection, ...

spark各种函数解析

1.combineByKey:使用用户设置好的聚合函数对每个Key中的Value进行组合(combine)。可以将输入类型为RDD[(K, V)]转成成RDD[(K, C)]。 函数原型 ...

Spark学习1: 基础函数功能解读

Spark已经定义好了一些基本的transformation 和 action的操作,下面我们yitanjiuji

Spark RDD API详解(一) Map和Reduce

本文用实例介绍Spark中RDD和MapReduce相关的API。
  • jewes
  • jewes
  • 2014年10月08日 17:31
  • 87811

Spark API 详解/大白话解释 之 reduce、reduceByKey

reduce(binary_function) reduce将RDD中元素前两个传给输入函数,产生一个新的return值,新产生的return值与RDD中下一个元素(第三个元素)组成两个元素,再被传...

Spark RDD的fold算子

fold算子签名:  def fold(zeroValue: T)(op: (T, T) => T): T ,算子其实就是先对rdd分区的每一个分区进行使用op函数,在调用op函数过程中将zeroVa...
  • Dax1n
  • Dax1n
  • 2017年06月09日 22:48
  • 198
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:SPARK里的reduce(),fold(),以及aggregate()
举报原因:
原因补充:

(最多只允许输入30个字)