Flink广播的使用

本文详细介绍了Apache Flink中的广播变量概念及其实现方式。广播变量允许将数据集作为所有并行操作实例的辅助数据集使用,可通过withBroadcastSet方法注册,并通过getBroadcastVariable方法按名称访问。

官网参考地址:https://ci.apache.org/projects/flink/flink-docs-release-1.2/dev/batch/index.html#broadcast-variables


广播的定义:

Broadcast variables allow you to make a data set available to all parallel instances of an operation, in addition to the regular(常规) input of the operation. This is useful for auxiliary(辅助的) data sets, or data-dependent parameterization. The data set will then be accessible at the operator as a Collection.


  • Broadcast: broadcast sets are registered by name via withBroadcastSet(DataSet, String)
     可以使用withBroadcastSet方法,通过名字注册一个广播
  • Access: accessible via getRuntimeContext().getBroadcastVariable(String) at the target operator.
  使用getRuntimeContext().getBroadcastVariable(String) 方法根据名字获取广播变量


直接上代码:

 

package com.daxin

import org.apache.flink.api.common.functions.RichMapFunction
import org.apache.flink.api.scala._
import org.apache.flink.api.scala.extensions._
import org.apache.flink.configuration.Configuration
import scala.collection.JavaConverters._  //asScala需要使用隐式转换


/**
  * Created by Daxin on 2017/4/16.
  */
object Broadcast {

  def main(args: Array[String]) {


    val env = ExecutionEnvironment.getExecutionEnvironment

    val toBroadcast = env.fromElements(1, 2, 3)

    val data = env.fromElements("1", "2", "5")

    /**
      * 如下是RichMapFunction的注释:
      * Rich variant of the MapFunction. As a RichFunction, it gives access to
      * the RuntimeContext and provides setup and teardown methods:
      * RichFunction.open(org.apache.flink.configuration.Configuration) and RichFunction.close().
      * <br>RichMapFunction是MapFunction的变体,RichFunction可以访问运行时上下文(RuntimeContext)
      * 并提供开启和关闭方法
      * <br>
      */
    val result = data.map(new RichMapFunction[String, String]() {
      var broadcastSet: Traversable[Integer] = null

      override def open(config: Configuration): Unit = {
        // 3. Access the broadcasted DataSet as a Collection
        broadcastSet = getRuntimeContext().getBroadcastVariable[Integer]("broadcastSetName").asScala
      }

      def map(in: String): String = {
        //...
        if (broadcastSet.toList.contains(in.toInt))
          in //随便简单返回字符串
        else
          in + "  " + broadcastSet.toList.size + "   " + broadcastSet.toList.contains(in) + "   " + broadcastSet.toList(0).getClass //随便简单返回
      }
    }).withBroadcastSet(toBroadcast, "broadcastSetName") // 2. Broadcast the DataSet

   

    result.print()
  }

}

由于广播的获取是根据名字的,所以需要注册和获取时候名字一致!关于广播完整实例可以参考:KMeans Algorithm



注意:

   由于广播变量保存在集群的每一个节点的内存中,因此广播变量不应该太大,对于简单的变量像标量值,可以使该变量或者参数成为函数闭包的一部分,或者使用org.apache.flink.api.scala.DataSet#withParameters方法通过Config传递。






<think>好的,用户想了解Flink广播变量使用教程。首先,我需要回忆一下Flink广播变量的相关知识。广播变量是用于将小数据集分发到所有TaskManager节点,供并行任务使用的机制,适用于一个流需要动态规则或配置的情况。 根据用户提供的引用,特别是引用[1]和引用[2],广播状态的使用需要注意状态的一致性,以及数据流的大小。通常,广播流是低吞吐量的,比如规则或配置,而主数据流是高吞吐量的。应用场景包括评论过滤和优惠券功能。 接下来,我需要整理Flink广播变量的使用步骤。首先创建广播流,然后处理主数据流时访问广播变量。代码示例可能需要用Java或Scala,但用户提供的引用中有Scala代码,所以可能倾向于使用Scala。不过用户问题中的示例是Python,但Flink主要用Java/Scala,所以需要说明这一点。 另外,引用[1]中的代码示例展示了如何广播数据集并在FlatMap操作中使用。需要解释每个步骤的作用,比如broadcast()方法的使用,以及如何通过withBroadcastSet关联广播变量。 注意事项部分要提到广播变量的不可变性,数据量控制,以及状态一致性,如引用[2]中提到的必须使用同一状态描述符。应用场景可以列举用户提供的例子,如评论过滤和优惠券。 最后,生成相关问题需要考虑用户可能进一步想知道的内容,比如广播变量和广播状态的区别,性能影响,更新机制,与普通变量的区别,以及错误处理。</think>### Flink广播变量使用教程 Flink的**广播变量(Broadcast Variable)** 用于将**小规模数据集**分发到所有并行任务节点,供处理主数据流时动态读取。其核心机制是将低吞吐量的规则流(如配置、字典表)广播到高吞吐量数据流处理的TaskManager内存中,实现高效的状态共享[^2]。 #### 一、使用步骤(基于DataStream API) 1. **定义广播流** 广播流通常是低频更新的数据源(如规则、配置)。 ```java // 示例:从集合创建广播流(Java) DataStream<String> ruleStream = env.fromElements("spam", "fraud"); ``` 2. **处理主数据流时关联广播变量** 使用`BroadcastProcessFunction`或`KeyedBroadcastProcessFunction`处理主数据流的元素,并访问广播状态。 ```java DataStream<String> mainDataStream = ...; // 主数据流(如用户评论) // 定义广播状态描述符 MapStateDescriptor<String, Boolean> ruleDescriptor = new MapStateDescriptor<>("rules", String.class, Boolean.class); // 广播规则流并处理主数据流 BroadcastStream<String> broadcastRules = ruleStream.broadcast(ruleDescriptor); DataStream<String> result = mainDataStream .connect(broadcastRules) .process(new CommentFilterProcessFunction()); ``` 3. **实现处理函数** 在`processElement`方法中读取广播状态,在`processBroadcastElement`方法中更新状态。 ```java public class CommentFilterProcessFunction extends BroadcastProcessFunction<String, String, String> { @Override public void processElement(String comment, ReadOnlyContext ctx, Collector<String> out) { ReadOnlyBroadcastState<String, Boolean> rules = ctx.getBroadcastState(ruleDescriptor); // 检查评论是否包含违规词 for (String keyword : rules.keys()) { if (comment.contains(keyword)) { return; // 过滤违规评论 } } out.collect(comment); } @Override public void processBroadcastElement(String rule, Context ctx, Collector<String> out) { ctx.getBroadcastState(ruleDescriptor).put(rule, true); // 更新广播状态 } } ``` #### 二、关键注意事项 1. **广播变量不可变** 广播流中的数据在任务运行期间应保持稳定,避免频繁更新[^1]。 2. **控制数据量** 广播变量存储在TaskManager内存中,数据量需控制在GB级别以内。 3. **状态一致性** 需通过同一`MapStateDescriptor`访问状态,确保主数据流与广播流的状态版本一致[^2]。 #### 三、典型应用场景 1. **实时评论过滤** 将敏感词库作为广播流,实时过滤用户评论中的违规内容[^2]。 2. **动态规则匹配** 电商场景中广播优惠券使用规则,实时计算订单是否符合优惠条件[^2]。 ```java // 电商优惠券应用示例 DataStream<CouponRule> couponRules = ...; // 优惠券规则流 DataStream<Order> orders = ...; // 订单流 orders.connect(couponRules.broadcast(ruleDescriptor)) .process(new CouponValidationProcessFunction()); ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

javartisan

对您有帮助,欢迎老板赐一杯奶茶

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值