Flink广播变量和分布式缓存

Flink广播变量和分布式缓存

一:Flink广播变量

Flink支持广播变量,就是将数据广播到具体的taskmanager上,数据存储在内存中,这样可以减缓大量的shuffle操作;

比如在数据join阶段,不可避免的就是大量的shuffle操作,我们可以把其中一个dataSet广播出去,一直加载到taskManager的内存中,可以直接在内存中拿数据,避免了大量的shuffle,导致集群性能下降;

广播变量创建后,它可以运行在集群中的任何function上,而不需要多次传递给集群节点。另外需要记住,不应该修改广播变量,这样才能确保每个节点获取到的值都是一致的。

一句话解释,可以理解为是一个公共的共享变量,我们可以把一个dataset 数据集广播出去,然后不同的task在节点上都能够获取到,这个数据在每个节点上只会存在一份。如果不使用broadcast,则在每个节点中的每个task中都需要拷贝一份dataset数据集,比较浪费内存(也就是一个节点中可能会存在多份dataset数据)。

注意:因为广播变量是要把dataset广播到内存中,所以广播的数据量不能太大,否则会出现OOM这样的问题

在这里插入图片描述

实例:

需求:从内存中拿到data2的广播数据,再与data1数据根据第二列元素组合成(Int, Long, String, String)

val data1 = new mutable.MutableList[(Int, Long, String)]

​ data1 .+=((1, 1L, “xiaoming”))

​ data1 .+=((2, 2L, “xiaoli”))

​ data1 .+=((3, 2L, “xiaoqiang”))

val ds1 = env.fromCollection(data1)

​ val data2 = new mutable.MutableList[(Int, Long, Int, String, Long)]

​ data2 .+=((1, 1L, 0, “Hallo”, 1L))

​ data2 .+=((2, 2L, 1, “Hallo Welt”, 2L))

data2 .+=((2, 3L, 2, “Hallo Welt wie”, 1L))

val ds2 = env.fromCollection(data2)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值