Spark广播变量和累加器

本文深入探讨了Spark中的广播变量和累加器的使用方法及注意事项,通过图解和代码示例,详细解释了如何在Spark应用程序中有效利用这两种特性来优化性能。

一.广播变量图解

  

二.代码 

1 val conf = new SparkConf()
2 conf.setMaster("local").setAppName("brocast")
3 val sc = new SparkContext(conf)
4 val list = List("hello xasxt")
5 val broadCast = sc.broadcast(list)
6 val lineRDD = sc.textFile("./words.txt")
7 lineRDD.filter { x => broadCast.value.contains(x) }.foreach { println}
8 sc.stop()

三.注意事项

  1.不能将一个RDD使用广播变量广播出去,因为RDD是不存储数据的【弹性分布式数据集】。可以将RDD的结果广播出去【collect,数据不能太多】。

  2.广播变量只能在Driver端定义,不能在Executor端定义。

  3.Driver端可以修改广播变量的值,在Executor端无法修改广播变量的值。

四.累加器图解

  

五.代码

1 val conf = new SparkConf()
2 conf.setMaster("local").setAppName("accumulator")
3 val sc = new SparkContext(conf)
4 val accumulator = sc.accumulator(0)
5 sc.textFile("./words.txt").foreach { x =>{accumulator.add(1)}}
6 println(accumulator.value)
7 sc.stop()

六.注意事项

  1.累加器在Driver端定义赋初始值,累加器只能在Driver端读取,在Excutor端更新。

  

转载于:https://www.cnblogs.com/yszd/p/11228392.html

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值