spark学习-Spark广播变量与共享变量（1）

最新推荐文章于 2024-07-22 15:29:20 发布

九师兄

最新推荐文章于 2024-07-22 15:29:20 发布

阅读量5.3k

点赞数 1

分类专栏：大数据-spark 文章标签： spark 广播变量共享变量

本文为博主九师兄（QQ:541711153 欢迎来探讨技术）原创文章，未经允许博主不允许转载。

本文链接：https://blog.csdn.net/qq_21383435/article/details/77574857

版权

大数据-spark 专栏收录该内容

204 篇文章 480 订阅 ¥49.90 ¥99.00

订阅专栏

本文介绍了Spark中的广播变量和累加器的概念及其使用方法。广播变量用于减少大规模数据在网络传输中的开销，提高性能，尤其适用于任务并行度高且需要大变量的情况。累加器则是仅支持累加操作的变量，主要应用于计数和求和。广播变量通过SparkContext的broadcast()方法创建，累加器通过SparkContext.accumulator()创建。文章还详细阐述了广播变量在网络传输和内存消耗上的优势，以及在特定场景下的应用。

摘要由CSDN通过智能技术生成

在这里插入图片描述

1，概念

###1.1 广播变量：
广播变量允许程序员将一个只读的变量缓存在每台机器上，而不用在任务之间传递变量。广播变量可被用于有效地给每个节点一个大输入数据集的副本。Spark还尝试使用高效地广播算法来分发变量，进而减少通信的开销。 Spark的动作通过一系列的步骤执行，这些步骤由分布式的洗牌操作分开。Spark自动地广播每个步骤每个任务需要的通用数据。这些广播数据被序列化地缓存，在运行任务之前被反序列化出来。这意味着当我们需要在多个阶段的任务之间使用相同的数据，或者以反序列化形式缓存数据是十分重要的时候，显式地创建广播变量才有用。

###1.2 累加器：
累加器是仅仅被相关操作累加的变量，因此可以在并行中被有效地支持。它可以被用来实现计数器和总和。Spark原生地只支持数字类型的累加器，编程者可以添加新类型的支持。如果创建累加器时指定了名字，可以在Spark的UI界面看到。这有利于理解每个执行阶段的进程。（对于python还不支持）累加器通过对一个初始化了的变量v调用SparkContext.accumulator(v)来创建。在集群上运行的任务可以通过add或者”+=”方法在累加器上进行累加操作。但是，它们不能读取它的值。

了解本专栏