3.SparkąāģĖ2

Spark编程2


接2.Spark架构及编程

五、Spark核心编程

5.6 累加器

5.6.1 累加器基本介绍
-- 什么是累加器?
  分布式共享只写变量,使用累加器完成数据的累加。 
    1. 分布式:每一个executor都拥有这个累加器
    2. 共享:Driver中的变量原封不动的被executor拥有一份副本 
    3. 只写:同一个executor中可以对这个变量进行改值,其他的executor不能读取。
    
-- 累加器用来解决什么问题?
   累加器用来把Executor端变量信息聚合到Driver端。在Driver程序中定义的变量,在Executor端的每个Task都会得到这个变量的一份新的副本,每个task更新这些副本的值后,传回Driver端进行merge
   所谓累加器,一般作用就是累加(可以是数值的累加,也可以是数据的累加)

image-20200608203039476

5.6.2 累加器的使用
     val rdd: RDD[Int] = sc.makeRDD(List(1,2,3,4),2)

     //1.声明累加器
    val sum: LongAccumulator = sc.longAccumulator("sum")
    
    rdd.foreach(num =>{
   
      //2. 调用累加器
      sum.add(num)
    })

     // 3. 获取累加器的值
    println(sum.value)
-- 一共有三种自带的累加器类型
longAccumulator 、doubleAccumulator()、collectionAccumulator()     
5.6.3 累加器的具体流程
 1. 将累加器变量注册到spark中
 2. 执行计算时,spark会将累加器发送到executor执行计算
 3. 计算完毕后,executor会将累加器的计算结果返回到driver端。
 4. driver端获取到多个累加器的结果,然后两两合并。最后得到累加器的执行结果

image-20200608204813705

5.6.4 自定累加器
--步骤:
     1. 自定义累加器类,继承extends  AccumulatorV2[IN, OUT]
     2. IN:累加器输入数据的类型
        OUT:累加器返回值的数据类型
        需指定如上两个参数的数据类型
     3. 重写AccumulatorV2中6个方法
             --方法1:判断当前的累加器是初始化
            override def isZero: Boolean = ???
             --方法2:复制一个累加器
            override def copy(): AccumulatorV2[String, mutable.Map[String, Int]] = ???
             --方法3:重置累加器
            override def reset
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值