Flink 分布式缓存 广播变量 区别

本文详细介绍了Flink中的分布式缓存和广播变量的区别。分布式缓存基于磁盘,将文件复制到各节点本地文件系统,而广播变量存储在内存中,作为公共共享变量供所有任务访问。两者都能避免数据多次复制,但广播变量适用于小数据集,以防止内存溢出,并且一旦广播就不支持修改,确保数据一致性。
摘要由CSDN通过智能技术生成

区别:

1.广播变量是基于内存的,是将变量分发到各个worker节点的内存上(避免多次复制,节省内存)

2.分布式缓存是基于磁盘的,将文件copy到各个节点上,当函数运行时可以在本地文件系统检索该文件(避免多次复制,提高执行效率)

 

分布式缓存:

Flink提供了一个分布式缓存,类似于hadoop,可以使用户在并行函数中很方便的读取本地文件,并把它放在taskmanager节点中,防止task重复拉取。
此缓存的工作机制如下:程序注册一个文件或者目录(本地或者远程文件系统,例如hdfs或者s3),通过ExecutionEnvironment注册缓存文件并为它起一个名称。
当程序执行,Flink自动将文件或者目录复制到所有taskmanager节点的本地文件系统,仅会执行一次。用户可以通过这个指定的名称查找文件或者目录,然后从taskmanager节点的本地文件系统访问它。

Flink 分布式缓存 实例

 

Broadcast 广播变量:

一句话解释,可以理解为是一个公共的共享变量,我们可以把一个dataset

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

二十六画生的博客

你的鼓励是我创作最大的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值