spark2学习笔记之(四)——共享变量:广播变量(broadcast variable)

spark的第二种共享变量是广播变量,它可以让程序高效地向所有工作节点发送一个较大的只读值

1、广播变量的使用

应用场景:

 想向所有工作节点发送机器学习训练的模型参数,e.g.命名实体识别、分词的模型参数。

在spark2.0中,官方推荐Spark中所有功能的入口点都是SparkSession类,网上很多代码是基于老版本的,新老写法总结见如下代码。

spark2.X的java代码如下:

//spark2.0之前写法
SparkConf conf = new SparkConf().setAppName("RealNameDS").setMaster("local");
JavaSparkContext jsc = new JavaSparkContext(conf);

//spark2.0之后写法
SparkSession session = SparkSession.builder().master("local").appName("RealNameDS").getOrCreate();
session.sparkContext().setLogLevel("WARN");
...
// 从文件读取模型参数,并广播该变量,每个节点只会被发送一次
ArrayList<String> paramList = FileUtils.readFileAsList(modelPath);
...
//spark2.0之后从sparkContext中得到JavaSparkContext 
JavaSparkContext jsc = javaSparkContext.fromSparkContext(session.sparkContext());
final Broadcast<ArrayList<String>> paramListBroad = jsc.broadcast(paramList);
...
JavaPairRDD<String, Integer> phoneNamePairs = myRDD.mapPartitionsToPair(new PairFlatMapFunction<Iterator<Row>, String, Integer>() {
    @Override
	public Iterator<Tuple2<String, Integer>> call(Iterator<Row> rowIter) throws Exception {
        ArrayList<String> stayMapBroad = paramListBroad.value();
        ...
    }
});
...

(1)通过JavaSparkContext的broadcast()方法创建一个广播对象,任何可序列化的类型都可以这么实现。

(2)通过value()方法访问广播对象的值。

(3)广播变量只会被发到各个节点一次,应作为只读值处理,例如定义为final类型。

2、广播的序列化优化

当广播一个比较大的值时,选择既快又好的序列化格式可以显著提升性能。spark的Java API中默认使用的序列化库为Java序列化库,因此它对于除了基本类型的数组以外的任何对象都比较低效。spark支持使用第三方序列化库Kryo,它可以提供比Java的序列化工具更短的序列化时间和更高压缩比的二进制表示,但不能直接序列化全部类型的对象。

代码如下:

SparkConf conf = new SparkConf().setAppName("RealNameDS")setMaster("local");

conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer");
//严格要求注册类
conf.set("spark.kryo.registrationRequired", "true");
conf.registerKryoClasses(Array(classOf[MyClass]), classOf[MyOtherClass]);

首先,设置spark.serializer为org.apache.spark.serializer.KryoSerializer。为了获得最佳性能,向Kryo注册你想要序列化的类。注册类可以让Kryo避免把每个对象的完整类名写下来,成千上万条记录累计节省的空间相当可观。如果想强制要求这种注册,可以把spark.kryo.registrationRequired设置为true,这样Kryo会在遇到未注册的类时抛出错误。

如果抛出了NotSerializableException,要查出引发问题的类是比较困难的,可以通过设置spark-submit的--driver-java-options和--executor-java-options标记来打开“-Dsun.io.serialization.extened DebugInfo=true”选项。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Spark广播变量是一种分布式只读共享变量。它通过将一个普通变量封装为广播变量,使得该变量可以在Executor端执行的代码中使用。广播变量的使用非常简单,只需要使用`broadcast`方法将一个普通变量封装为广播变量即可。例如,可以使用以下代码将一个可变的映射封装为广播变量: ``` val map = mutable.Map(("a", 4),("b", 5),("c", 6)) val bc: Broadcast[mutable.Map[String, Int]] = sc.broadcast(map) ``` 这样,在Executor端的代码中可以通过`bc.value`来获取广播变量的值,而不需要将整个变量传递到Executor端。广播变量的主要作用是可以在并行计算中共享数据,减少数据传输的开销,提高计算效率。因为广播变量在Executor端是只读的,所以不会出现数据一致性的问题。这使得广播变量非常适合在分布式计算中共享一些大型的只读数据集。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [Spark共享变量(广播变量、累加器)](https://blog.csdn.net/Android_xue/article/details/79780463)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] - *2* [spark 累加器,广播变量.docx](https://download.csdn.net/download/weixin_41801538/12279398)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] - *3* [Spark学习笔记(15)——广播变量](https://blog.csdn.net/m0_56602092/article/details/119452562)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值