spark 累加累计次数累计求和

最新推荐文章于 2022-04-30 22:42:31 发布

青龙悟空

最新推荐文章于 2022-04-30 22:42:31 发布

阅读量805

点赞数

分类专栏： spark

本文链接：https://blog.csdn.net/qq_39674417/article/details/111559603

版权

该博客演示了在Scala中使用Spark进行累加求和的操作。通过创建SparkConf和SparkContext，读取文件并使用map函数遍历RDD，累加计数器i和accumulator。博客强调了accumulator在executor和driver端的使用区别，并提供了自定义累加求和的示例。

摘要由CSDN通过智能技术生成

import org.apache.spark.SparkConf
import org.apache.spark.SparkContext

object Scala {
def main(args: Array[String]): Unit = {
/**
* 累加求和
*/
val conf=new SparkConf().setAppName("test").setMaster("local")
val sc=new SparkContext(conf)
val rdd1=sc.textFile("./words")
/**
* 初始化
* i=0
* 常量的初始化用var
*/
var i=0
rdd1.map(line=>{
/**
* 这个i是在executor端去执行的
* map 是一对一的
* 是一遍一遍地去处理的
*/
i+=1
accumulator.add(1)
println("Executor execuotr ="+accumulator)
//在executor端获取值的时候，不能用accumulator.value,而是直接用accumulator获取的，这一点和driver端有区别。
line
}).collect()//此处的collect是为了触发执行，没有别的意思
println(&