使用累加器配合广播变量做码表动态更新

最新推荐文章于 2022-02-07 17:44:37 发布

寒郊無留影

最新推荐文章于 2022-02-07 17:44:37 发布

阅读量826

点赞数

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/qq_18838991/article/details/78271927

版权

广播变量简单介绍

广播变量是允许程序员缓存一个只读的变量在每个节点上，而不是每个任务保存一份拷贝。例如，利用广播变量，我们能够将配置、较小数据量的码表分发到每个节点上，以减少通信的成本。
一个广播变量可以通过调用SparkContext.broadcast(v)方法从一个初始变量v中创建。广播变量是v的一个包装变量，它的值可以通过value方法访问，下面的代码说明了这个过程：

scala> val broadcastVar = sc.broadcast(Array(1, 2, 3))
broadcastVar: org.apache.spark.broadcast.Broadcast[Array[Int]] = Broadcast(0)

scala> broadcastVar.value
res0: Array[Int] = Array(1, 2, 3)

从上文我们可以看出广播变量的声明很简单，调用broadcast就能搞定，并且scala中一切可序列化的对象都是可以进行广播的，这就给了我们很大的想象空间，可以利用广播变量将一些经常访问的大变量进行广播，而不是每个任务保存一份，这样可以减少资源上的浪费。

更新广播变量(rebroadcast)

广播变量可以用来更新一些大的配置变量，比如数据库中的一张表格，那么有这样一个问题，如果数据库当中的配置表格进行了更新，我们需要重新广播变量该怎么做呢。上文对广播变量的说明中，我们知道广播变量是只读的，也就是说广播出去的变量没法再修改，那么我们应该怎么解决这个问题呢？
答案是利用spark中的unpersist函数
Spark automatically monitors cache usage on each node and drops out old data partitions in a least-recently-used (LRU) fashion. If you would like to manually remove an RDD instead of waiting for it to fall out of the cache, use the RDD.unpersist() method.
上文是从spark官方文档摘抄出来的，我们可以看出，正常来说每个节点的数据是不需要我们操心的，spark会自动按照LRU规则将老数据删除，如果需要手动删除可以调用unpersist函数。
那么更新广播变量的基本思路：将老的广播变量删除（unpersist），然后重新广播一遍新的广播变量，为此简单包装了一个用于广播和更新广播变量的wraper类，如下：

PS：我们这里结合spark里累加器及spark自动监控hdfs目录功能来触发执行广播变量更新，使用方法见下边的示例：
不明白累加器的同学自行借助各类搜索查阅资料。

广播变量更新的wraper类

package cn.com.bonc.tools

import java.io.{ ObjectInputStream, ObjectOutputStream }
import org.apache.spark.broadcast.Broadcast
import org.apache.spark.streaming.StreamingContext
import scala.reflect.ClassTag

// This wrapper lets us update brodcast variables within DStreams' foreachRDD
// without running into serialization issues
case class BroadcastWrapper[T: ClassTag](
    @transient private val ssc: StreamingContext,
    @transient private val _v: T) {
   

  @transient private var v = ssc.sparkContext.broadcast(_v)

  def update(newV

最低0.47元/天解锁文章

寒郊無留影

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
使用累加器配合广播变量做码表动态更新

广播变量简单介绍广播变量是允许程序员缓存一个只读的变量在每个节点上，而不是每个任务保存一份拷贝。例如，利用广播变量，我们能够将配置、较小数据量的码表分发到每个节点上，以减少通信的成本。一个广播变量可以通过调用SparkContext.broadcast(v)方法从一个初始变量v中创建。广播变量是v的一个包装变量，它的值可以通过value方法访问，下面的代码说明了这个过程：scala> val b
复制链接

扫一扫