Spark共享变量

一、broadcast广播变量

1.定义

       如果一个变量不是广播变量,Driver端会给每个task都发送一份。如果task数量很多,Driver的带宽会成为系统的瓶颈。而且会大量消耗task服务器上的资源。如果把这个变量声明为广播变量,会在每个executor上开辟一片共享不可修改的文件用来存放这个变量副本。节省了通信的成本和服务器的资源。

2.注意事项

a.不能将一个RDD广播出去,因为RDD不存储数据。

b.广播变量只能在Driver端定义,不能在Executor段定义

c.在Driver端可以修改广播变量的值,在Executor端无法修改广播变量的值。

d.如果executor端用到了Driver的变量,不使用广播变量,有多少task就有多少的Driver端的变           量副本

e.如果executor端用到了Driver的变量,使用广播变量在每个executor中只有一个Driver端的变           量副本。

二、accumulator累加器

1.定义

       用来同步work中的计算结果到Driver中。

2.注意

a.累加器的调用,也就是accumulator.value必须要在action之后被调用,必须在执行算子触发之后

b.多次使用同一个累加器,尽量做到用完即重置。accumulator.reset

c.尽量给累加器指定name,方便我们在web-ui上进行查看

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Spark共享变量主要有两种类型:累加器和广播变量。累加器用于对信息进行聚合,而广播变量则用于高效分发较大对象。 累加器是一种只能被“加”的变量,可以在分布式计算中进行并行操作,最终得到一个全局的结果。累加器通常用于计数器、求和等场景,可以在不同的节点上进行并行计算,最终将结果汇总。例如,可以使用累加器来统计某个单词在整个数据集中出现的次数。 广播变量则是一种将较大的只读数据分发到所有节点上的机制,可以在分布式计算中减少网络传输和内存消耗。广播变量通常用于将一些只读数据(如配置信息、字典等)在所有节点上缓存一份,以便在任务执行时快速访问。例如,可以使用广播变量将一个大型的机器学习模型分发到所有节点上,以便在任务执行时快速加载。 下面是两个Spark共享变量的例子: 1.使用累加器统计单词出现次数 ```python from pyspark import SparkContext, SparkConf conf = SparkConf().setAppName("wordCount").setMaster("local") sc = SparkContext(conf=conf) # 创建一个累加器 wordCount = sc.accumulator(0) def countWords(line): global wordCount words = line.split() for word in words: wordCount += 1 # 读取文件并进行单词计数 lines = sc.textFile("file.txt") lines.foreach(countWords) # 输出单词总数 print("Total words: ", wordCount.value) ``` 2.使用广播变量缓存机器学习模型 ```python from pyspark import SparkContext, SparkConf conf = SparkConf().setAppName("machineLearning").setMaster("local") sc = SparkContext(conf=conf) # 创建一个广播变量 model = sc.broadcast(loadModel()) def predict(data): # 使用广播变量中的模型进行预测 result = model.value.predict(data) return result # 读取数据并进行预测 data = sc.textFile("data.txt") result = data.map(predict) # 输出预测结果 print(result.collect()) ```

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值