Spark API 之 aggregate(a)(fun1,fun2)

最新推荐文章于 2021-11-14 17:44:40 发布

学习笔记cmj

最新推荐文章于 2021-11-14 17:44:40 发布

阅读量384

点赞数

分类专栏： sparkAPI使用案例

本文链接：https://blog.csdn.net/qq_29499107/article/details/80810873

版权

sparkAPI使用案例专栏收录该内容

17 篇文章 2 订阅

订阅专栏

java面试题网站：www.javaoffers.com

aggregate是一个 柯里化函数，首先我们知道一个rdd有可能为多个partition。

a: 相对于fun1 作用于每个partition中的元素的第一个元素，即为每个partition增加一个首元素a, 相对于fun2 作用于每个partition经过fun1后对应的结果 和 a

fun1 ：作用于Rdd中的每个partition，并且遍历执行每个partition中的元素(此时的元素已经增加了a)，类似于java中的List集合进行for循环遍历每个元素，并在for循环中执行fun1 函数,

fun2: 作用于 a 和每个partition经过fun1后对应的结果（组成新的并列,a永远在第一个元素）并遍历计算，

demo1：

val a = sc.parallelize(List("a","b","c","d"),2) // sc 为sparkContext对象

a.aggregate("8")(_+_,_+_)

输出结果为："88ab8cd"

demo2:

val a = sc.parallelize(List(2,4,6,2,14,6),2)

a.aggregate(3)(math.max(_,_),_+_)

计算过程为：在第一个分区中拿到最大6

在第二个分区拿到最大14

最后加上一个3

结果为23

下面我来补充一案例详解他的逻辑：

package relax.sparkApi

import org.apache.spark.{SparkConf, SparkContext}

object sparkApiDemo {

  def main(args: Array[String]): Unit = {
    val sc = new SparkContext(new SparkConf().setMaster("local").setAppName("aggregate"))

//    val rdd1 = sc.parallelize(List(1,2,3,4,5,6),2)
//    val i = rdd1.aggregate(0)(math.max(_,_),_+_)
//    println(i)
//
    var hs =  (a: String,b:Any)=>{  //第一个函数  打印用 ：
      println("---------------------")
      println(a+" ： "+b)
      a+" : "+b
     }
    var hd = (a:String,b: String)=>{  //第二个函数  打印用 +
      println("---------------------")
      println(a+" + " +b)
      a+" + "+b
    }
    val rdd2 = sc.parallelize(List('1',"2","3","4","5","6"),2) //分两个区
    val str = rdd2.aggregate("i")(hs,hd)//开始执行
    println(str) //打印最终的结果
  }
}

我们来工作console 打印的信息来了解：

18/11/14 19:56:35 INFO BlockManagerInfo: Added broadcast_0_piece0 in memory on localhost:64776 (size: 1162.0 B, free: 3.8 GB)
18/11/14 19:56:35 INFO SparkContext: Created broadcast 0 from broadcast at DAGScheduler.scala:861
18/11/14 19:56:35 INFO DAGScheduler: Submitting 2 missing tasks from ResultStage 0 (ParallelCollectionRDD[0] at parallelize at sparkApiDemo.scala:27)
18/11/14 19:56:35 INFO TaskSchedulerImpl: Adding task set 0.0 with 2 tasks
18/11/14 19:56:35 INFO TaskSetManager: Starting task 0.0 in stage 0.0 (TID 0, localhost, PROCESS_LOCAL, 2141 bytes)
18/11/14 19:56:35 INFO Executor: Running task 0.0 in stage 0.0 (TID 0)
---------------------
i ： 1
---------------------
i : 1 ： 2
---------------------
i : 1 : 2 ： 3

// 第一个分区通过打印信息得知：第一次执行hs函数，把 'i' 传递给 hs 函数中的a , 把分区中遍历的第一个元素传递给b

//并且把hs的结果再次传递给hs函数参数a ，接着遍历分区中的下一个元素传递给b, 直到遍历分区中的所有元素为止，

// 分区中的元素个数代表遍历次数，也代表hs函数的迭代次数，把hs最后一次迭代运行结果返回，作为当前分区的计算结果。
18/11/14 19:56:35 INFO Executor: Finished task 0.0 in stage 0.0 (TID 0). 891 bytes result sent to driver
18/11/14 19:56:35 INFO TaskSetManager: Starting task 1.0 in stage 0.0 (TID 1, localhost, PROCESS_LOCAL, 2099 bytes)
18/11/14 19:56:35 INFO Executor: Running task 1.0 in stage 0.0 (TID 1)
---------------------
i ： 4
---------------------
i : 4 ： 5
---------------------
i : 4 : 5 ： 6 //第二个分区逻辑同上一样

18/11/14 19:56:35 INFO Executor: Finished task 1.0 in stage 0.0 (TID 1). 891 bytes result sent to driver
---------------------
i + i : 1 : 2 : 3

//当所有分区中的元素遍历完毕，也是就hs迭代完毕，则开始执行hd函数，hd函数执行的次数与分区的次数有关

// 把 i 传递给 hd函数中的参数a 然后把第一个分区的结果传给b,得到的新结果再次传递给hd参数的a,遍历下一个分区的结果

//传递给 b, 知道每个分区的每个结果遍历完毕，也就是说hd函数迭代计算的次数与遍历分区结果的次数相同，最后将最终的结果返回
18/11/14 19:56:35 INFO TaskSetManager: Finished task 0.0 in stage 0.0 (TID 0) in 115 ms on localhost (1/2)
18/11/14 19:56:35 INFO TaskSetManager: Finished task 1.0 in stage 0.0 (TID 1) in 29 ms on localhost (2/2)
18/11/14 19:56:35 INFO DAGScheduler: ResultStage 0 (aggregate at sparkApiDemo.scala:28) finished in 0.144 s
18/11/14 19:56:35 INFO TaskSchedulerImpl: Removed TaskSet 0.0, whose tasks have all completed, from pool
---------------------
i + i : 1 : 2 : 3 + i : 4 : 5 : 6

//总结就是 hd的执行逻辑是，i 加（这里的“加， + ” 就是执行一个hd函数）上每一个分区的结果，好比： i + 第一个分区结果+ 第二个分区结果
18/11/14 19:56:35 INFO DAGScheduler: Job 0 finished: aggregate at sparkApiDemo.scala:28, took 0.483809 s

i + i : 1 : 2 : 3 + i : 4 : 5 : 6 //打印最终的结果对应代码中的 “println(str) //打印最终的结果”

18/11/14 19:56:35 INFO SparkContext: Invoking stop() from shutdown hook
18/11/14 19:56:36 INFO SparkUI: Stopped Spark web UI at http://192.168.17.1:4040
18/11/14 19:56:36 INFO DAGScheduler: Stopping DAGScheduler
18/11/14 19:56:36 INFO MapOutputTrackerMasterEndpoint: MapOutputTrackerMasterEndpoint stopped!
18/11/14 19:56:36 INFO MemoryStore: MemoryStore cleared
18/11/14 19:56:36 INFO BlockManager: BlockManager stopped

学习笔记cmj

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark API 之 aggregate(a)(fun1,fun2)

aggregate是一个柯里化函数，首先我们知道一个rdd有可能为多个partition。a: 相对于fun1 作用于每个partition中的元素的第一个元素，即为每个partition增加一个首元素a, 相对于fun2 作用于每个partition经过fun1后对应的结果和 afun1 ：作用于Rdd中的每个partition，并且遍历执行每个partition中的...
复制链接

扫一扫

专栏目录