【大数据进击】Spark中的广播变量Broadcast Variable

官方介绍

A broadcast variable. Broadcast variables allow the programmer to keep a read-only variable cached on each machine rather than shipping a copy of it with tasks. They can be used, for example, to give every node a copy of a large input dataset in an efficient manner. Spark also attempts to distribute broadcast variables using efficient broadcast algorithms to reduce communication cost.

使用背景

在Spark的计算任务中,map, flatmap, reduce等算子操作时往往需要使用到变量;
默认情况下,Driver会将变量传输给每一个task

实际生产环境时,条件往往是这样的:
  1. task的数量是往往是很多的
  2. 大数据任务下使用的变量十分大
    这就进而造成:
    Driver传输到Task将会占用大量网络带宽,进而影响任务整体速度

简介

Spark作为一个优秀的大数据计算框架,自然也对这种情况做出了优化。那就是广播变量Broadcast variable,使用广播变量,有以下几个特点:

  1. 将广播变量传输一份副本到每个Worker
  2. 只读性
    如此以来,在每个Worker(节点机器)中,都有一份该变量,计算时task直接从本地获取即可,无需再耗费网络资源,但考虑到高并行时的并发写问题,广播变量只可读,不可写(累加器可写)。

具体使用(Scala版)

  1. 创建广播变量
val v2 =  sparkContext.broadcast(v1)
  1. 获取广播变量
val v3 = v2.value
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值