spark中的累加器与广播变量介绍

简介

当传递给Spark操作的函数(例如map或reduce)在远程集群节点上执行时,它将对函数中使用的所有变量的单独副本起作用。这些变量将复制到每台计算机,并且远程计算机上的变量的更新都不会传播回驱动程序。在各个任务之间支持通用的读写共享变量将效率很低。但是,Spark确实为两种常用用法模式提供了两种有限类型的共享变量:广播变量和累加器。

  • 其中累加器用来对信息进行聚合

  • 而广播变量用来高效分发较大的对象

累加器实例,统计一个日志文件的空行数量

  val textFile: RDD[String] = sc.textFile("in/word.txt")
    val blanklines = sc.accumulator(0)
    val mapRDD: RDD[String] = textFile.flatMap(line => {
      if (line == "") {
        blanklines += 1
      }
      line.split(" ")
    })
    mapRDD.saveAsTextFile("out/output.txt")
    println("Blank lines: " + blanklines.value)

  }

在这个示例中,我们创建了一个叫作 blankLinesAccumulator[Int] 对象,然后在输入中看到一个空行时就对其加 1。执行完转化操作之后,就打印出累加器中的值。注意,只有在运行 saveAsTextFile() 行动操作后才能看到正确的计数,因为行动操作前的转化操作
flatMap() 是惰性的,所以作为计算累加器只有在惰性的转化操作 flatMap()saveAsTextFile() 行动操作强制触发时才会开始求值。

总结起来,累加器的用法如下所示。

  • 通过在驱动器中调用 SparkContext.accumulator(initialValue) 方法,创建出存有初始值的累加器。返回值为
    org.apache.spark.Accumulator[T] 对象,其中 T 是初始值initialValue 的类型。
  • Spark 闭包里的执行器代码可以使用累加器的 += 方法(在 Java 中是 add)增加累加器的值。
  • 驱动器程序可以调用累加器的 value 属性(在 Java 中使用 value() 或 setValue())来访问累加器的值。

广播变量实例

广播变量用来高效分发较大的对象。向所有工作节点发送一个较大的只读值,以供一个或多个Spark操作使用。比如,如果你的应用需要向所有节点发送一个较大的只读查询表,甚至是机器学习算法中的一个很大的特征向量,广播变量用起来都很顺手。 在多个并行操作中使用同一个变量,但是 Spark会为每个任务分别发送。

广播变量其实就是类型为 spark.broadcast.Broadcast[T] 的一个对象,其中存放着类型为 T 的值。可以在任务中通过对Broadcast 对象调用 value 来获取该对象的值。这个值只会被发送到各节点一次,使用的是一种高效的类似 BitTorrent 的通信机制。

val broadcastVar = sc.broadcast(Array(1, 2, 3))
 broadcastVar.value

使用广播变量的过程如下:
(1) 通过对一个类型 T 的对象调用 SparkContext.broadcast 创建出一个 Broadcast[T] 对象。 任何可序列化的类型都可以这么实现。
(2) 通过 value 属性访问该对象的值(在 Java 中为 value() 方法)。
(3) 变量只会被发到各个节点一次,应作为只读值处理(修改这个值不会影响到别的节点)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

sisi.li8

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值