在默认情况下,当Spark在集群的多个不同节点的多个任务上并行运行一个函数时,它会把函数中涉及到的每个变量,在每个任务上都生成一个副本。但是,有时候需要在多个任务之间共享变量,或者在任务(Task)和任务控制节点(Driver Program)之间共享变量。
为了满足这种需求,Spark提供了两种类型的变量:
- 1)、广播变量Broadcast Variables
- 广播变量用来把变量在所有节点的内存之间进行共享,在每个机器上缓存一个只读的变 量,而不是为机器上的每个任务都生成一个副本;
- 2)、累加器Accumulators
- 累加器支持在所有不同节点之间进行累加计算(比如计数或者求和);
官方文档:rdd-programming-guidel#shared-variables
- 累加器支持在所有不同节点之间进行累加计算(比如计数或者求和);
1. 广播变量
1.1 原理
广播变量允许开