Spark累加器(Accumulator)

最新推荐文章于 2025-08-21 16:27:36 发布

原创

最新推荐文章于 2025-08-21 16:27:36 发布 · 1.5k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#spark #大数据 #分布式

1.累加器类型：

数值累加器：用于计算总和、计数等。
布尔累加器：用于计算满足特定条件的次数。
自定义累加器：允许定义复杂的聚合逻辑和数据结构。
集合累加器：用于计算唯一元素的数量，处理去重操作。

在 Spark 中，累加器（Accumulators）是一种可以用来在任务执行过程中进行累积的变量。它们主要用于计算全局的汇总值，如计数或求和。累加器是只加的变量（即只进行累加操作），并且是分布式的，适合于在多节点环境中进行汇总。

2.示例：

2.1(数值累加器)：假设我们有一个包含整数的 RDD，我们希望计算这些整数的总和，并使用累加器来进行累积。

# -*- coding: utf-8 -*-
"""
-------------------------------------------------
   File Name：     1.测试累加器
   date：          2024/7/30
-------------------------------------------------
PRODUCT：PyCharm
-------------------------------------------------
"""
from pyspark import SparkContext

# 初始化 SparkContext
sc = SparkContext("local[*]", "测试累加器")
# 创建累加器
accumulator = sc.accumulator(0)


# 定义一个函数来增加累加器的值
def add_to_accumulator(x):
    global accumulator
    accumulator.add(x