Spark(17) -- Spark共享变量(广播变量、累加器)

本文详细介绍了Spark中的两种共享变量:广播变量和累加器。广播变量用于减少每个任务的副本,提高效率,避免大量数据在网络间传输;累加器则支持在任务间进行累加计算,仅驱动器可以读取其值。文章通过原理讲解、对比分析和代码演示,展示了如何使用这两种变量,并以词频统计为例,说明了它们在实际场景中的应用。
摘要由CSDN通过智能技术生成

 在默认情况下,当Spark在集群的多个不同节点的多个任务上并行运行一个函数时,它会把函数中涉及到的每个变量,在每个任务上都生成一个副本。但是,有时候需要在多个任务之间共享变量,或者在任务(Task)和任务控制节点(Driver Program)之间共享变量
 为了满足这种需求,Spark提供了两种类型的变量:

  • 1)、广播变量Broadcast Variables
    • 广播变量用来把变量在所有节点的内存之间进行共享,在每个机器上缓存一个只读的变 量,而不是为机器上的每个任务都生成一个副本;
  • 2)、累加器Accumulators

1. 广播变量

1.1 原理

 广播变量允许开

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

erainm

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值