Flink Broadcast 广播变量应用案例

最新推荐文章于 2024-05-06 09:51:34 发布

hy1568786

最新推荐文章于 2024-05-06 09:51:34 发布

阅读量428

点赞数

分类专栏： flink

本文链接：https://blog.csdn.net/hyy1568786/article/details/105889443

版权

flink 专栏收录该内容

19 篇文章 2 订阅

订阅专栏

在Flink中，同一个算子可能存在若干个不同的并行实例，计算过程可能不在同一个Slot中进行，不同算子之间更是如此，因此不同算子的计算数据之间不能像Java数组之间一样互相访问，而广播变量Broadcast便是解决这种情况的。如下代码所示：

val env = ExecutionEnvironment.getExecutionEnvironment
val ds1 = env.fromElements("1", "2", "3", "4", "5")
val ds2 = env.fromElements("a", "b", "c", "d", "e")

ds1.map{
t =>
(t, ds2)
}.print()

运行上述代码会报InvalidProgramException的错，因为在ds1的map算子中无法再去调用ds2，此时可以使用广播变量将ds2这个变量进行广播，使得ds2这一被广播的数据集在ds1中map算子的所有并行实例中都可用，具体处理方式如下：

object BroadcastTest {
def main(args: Array[String]): Unit = {
val env = ExecutionEnvironment.getExecutionEnvironment
val ds1 = env.fromElements("1", "2", "3", "4", "5")
val ds2 = env.fromElements("a", "b", "c", "d", "e")

ds1.map(new RichMapFunction[String, (String, String)] {
private var ds2: Traversable[String] = null

override def open(parameters: Configuration) {
ds2 = getRuntimeContext.getBroadcastVariable[String]("broadCast").asScala
}

def map(t: String): (String, String) = {
var result = ""
for (broadVariable <- ds2) {
result = result + broadVariable + " "
}
(t, result)
}
}).withBroadcastSet(ds2, "broadCast").print()
}
}

上述代码能够成功运行出如下结果：

(1,a b c d e )
(2,a b c d e )
(3,a b c d e )
(4,a b c d e )
(5,a b c d e )

可以看到，ds1的map算子通过访问广播变量成功访问到ds2中的数据。该过程分为两步：设置广播变量和获取广播变量。

设置广播变量
在某个需要用到该广播变量的算子后调用withBroadcastSet(var1, var2)进行设置，var1为需要广播变量的变量名，var2是自定义变量名，为String类型。注意，被广播的变量只能为DataSet类型，不能为List、Int、String等类型。
获取广播变量
创建该算子对应的富函数类，例如map函数的富函数类是RichMapFunction，该类有两个构造参数，第一个参数为算子输入数据类型，第二个参数为算子输出数据类型。首先创建一个Traversable[_]接口用于接收广播变量并初始化为空，接收类型与算子输入数据类型相对应；然后重写open函数，通过getRuntimeContext.getBroadcastVariable[_](var)获取到广播变量，var即为设置广播变量时的自定义变量名，类型为String，open函数在算子生命周期的初始化阶段便会调用；最后在map方法中对获取到的广播变量进行访问及其它操作。
注意：只有在某个Operator中使用到不属于该Operator的DataSet时才需要广播变量，在iterate内部可以将某个DataSet直接作为起始节点，不需要使用广播变量。

广播变量使用套路：

1 第一步：封装DataSet，调用withBroadcastSet。

2 第二步：getRuntimeContext().getBroadcastVariable，获得广播变量

3 第三步：RichMapFunction中执行获得广播变量的逻辑

原文链接：https://blog.csdn.net/qq_34842671/article/details/80746593

另一个实例：https://blog.csdn.net/shenshouniu/article/details/84494871

hy1568786

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Flink Broadcast 广播变量应用案例

在Flink中，同一个算子可能存在若干个不同的并行实例，计算过程可能不在同一个Slot中进行，不同算子之间更是如此，因此不同算子的计算数据之间不能像Java数组之间一样互相访问，而广播变量Broadcast便是解决这种情况的。如下代码所示： val env = ExecutionEnvironment.getExecutionEnvironment val ds1 = en...
复制链接

扫一扫