spark 广播变量大数据_Spark中广播变量详解

最新推荐文章于 2024-05-24 00:30:00 发布

木匠小强

最新推荐文章于 2024-05-24 00:30:00 发布

阅读量1.2k

点赞数

文章标签： spark 广播变量大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_31965935/article/details/111981078

版权

Spark中广播变量详解以及如何动态更新广播变量mp.weixin.qq.com

【前言：Spark目前提供了两种有限定类型的共享变量：广播变量和累加器，今天主要介绍一下基于Spark2.4版本的广播变量。先前的版本比如Spark2.1之前的广播变量有两种实现：HttpBroadcast和TorrentBroadcast，但是鉴于HttpBroadcast有各种弊端，目前已经舍弃这种实现，本篇文章也主要阐述TorrentBroadcast】

广播变量概述

广播变量是一个只读变量，通过它我们可以将一些共享数据集或者大变量缓存在Spark集群中的各个机器上而不用每个task都需要copy一个副本，后续计算可以重复使用，减少了数据传输时网络带宽的使用，提高效率。相比于Hadoop的分布式缓存，广播的内容可以跨作业共享。

广播变量要求广播的数据不可变、不能太大但也不能太小(一般几十M以上)、可被序列化和反序列化、并且必须在driver端声明广播变量，适用于广播多个stage公用的数据，存储级别目前是MEMORY_AND_DISK。

广播变量存储目前基于Spark实现的BlockManager分布式存储系统，Spark中的shuffle数据、加载HDFS数据时切分过来的block块都存储在BlockManager中，不是今天的讨论点，这里先不做详述了。

广播变量的创建方式和获取

//创建广播变量

val broadcastVar = sparkSession.sparkContext.broadcast(Array(1, 2, 3))

//获取广播变量

broadcastVar.value

广播变量

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
spark 广播变量大数据_Spark中广播变量详解

Spark中广播变量详解以及如何动态更新广播变量mp.weixin.qq.com【前言：Spark目前提供了两种有限定类型的共享变量：广播变量和累加器，今天主要介绍一下基于Spark2.4版本的广播变量。先前的版本比如Spark2.1之前的广播变量有两种实现：HttpBroadcast和TorrentBroadcast，但是鉴于HttpBroadcast有各种弊端，目前已经舍弃这种实现，本篇文章...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。