Spark——自定义累加器accumulator

最新推荐文章于 2024-03-10 11:59:51 发布

一个在成长的程序猿

最新推荐文章于 2024-03-10 11:59:51 发布

阅读量348

点赞数

分类专栏：大数据文章标签： spark spark累加器

本文链接：https://blog.csdn.net/m0_46581341/article/details/107119402

版权

自定义累加器

1.继承AccumulateV2
2.重写isZero() 当前累加器是否为初始化状态
copy() 复制累加器对象
reset() 置空累加器
add() 向累加器中增加数据
merge() 合并累加器
value() 获取累加器中的结果

import java.util

import org.apache.spark.rdd.RDD
import org.apache.spark.util.{AccumulatorV2, LongAccumulator}
import org.apache.spark.{SparkConf, SparkContext}


//TODO 自定义累加器
object Spark21_Accumulator {

  def main(args: Array[String]): Unit = {

    val config: SparkConf = new SparkConf().setMaster("local[*]").setAppName("Serializable")

    val sc = new SparkContext(config)

    val dataRDD: RDD[String] = sc.makeRDD(List("hadoop","hive","hbase","scala","spark"),2)

    //TODO 创建累加器
    val wordAccumulator = new WordAccumulator
    //TODO 注册累加器
    sc.register(wordAccumulator)

    dataRDD.foreach{
      case word => {
        //TODO 执行累加器的累加功能
        wordAccumulator.add(word)
      }
    }

最低0.47元/天解锁文章

一个在成长的程序猿

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark——自定义累加器accumulator

自定义累加器1.继承AccumulateV22.重写isZero() 当前累加器是否为初始化状态copy() 复制累加器对象reset() 置空累加器add() 向累加器中增加数据merge() 合并累加器value() 获取累加器中的结果import java.utilimport org.apache.spark.rdd.RDDimport org.apache.spark.util.{AccumulatorV2, LongAccumulator}import org.apac
复制链接

扫一扫