7-Flink的分布式缓存

最新推荐文章于 2022-02-10 15:16:56 发布

王知无(import_bigdata)

最新推荐文章于 2022-02-10 15:16:56 发布

阅读量697

点赞数

分类专栏： Flink系统性学习专栏

原创文章禁止转载。否则追究法律后果。

本文链接：https://blog.csdn.net/u013411339/article/details/87993604

版权

Flink系统性学习专栏同时被 2 个专栏收录

256 篇文章 102 订阅 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

大数据成神之路

254 篇文章 157 订阅

订阅专栏

Flink提供了一个分布式缓存机制，用于在TaskManager节点上存储文件，避免重复拉取。用户可通过ExecutionEnvironment注册文件或目录，Flink会自动复制到所有TaskManager，之后的任务可本地访问。文章提供了一个示例，展示如何在用户函数中通过RuntimeContext访问缓存文件。

摘要由CSDN通过智能技术生成

分布式缓存

Flink提供了一个分布式缓存，类似于hadoop，可以使用户在并行函数中很方便的读取本地文件，并把它放在taskmanager节点中，防止task重复拉取。
此缓存的工作机制如下：程序注册一个文件或者目录(本地或者远程文件系统，例如hdfs或者s3)，通过ExecutionEnvironment注册缓存文件并为它起一个名称。
当程序执行，Flink自动将文件或者目录复制到所有taskmanager节点的本地文件系统，仅会执行一次。用户可以通过这个指定的名称查找文件或者目录，然后从taskmanager节点的本地文件系统访问它。

示例

在ExecutionEnvironment中注册一个文件：

//获取运行环境
ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();

//1：注册一个文件,可以使用hdfs上的文件 也可以是本地文件进行测试
env.registerCachedFile("/Users/wangzhiwu/WorkSpace/quickstart/text","a.txt");

在用户函数中访问缓存文件或者目录(这里是一个map函数)。这个函数必须继承RichFunction,因为它需要使用RuntimeContext读取数据:

DataSet<String> result = data.map(new RichMapFunction<String, String>() {
            private ArrayList<String> dataList = new ArrayList<String>();

了解本专栏

超级会员免费看

王知无(import_bigdata)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
7-Flink的分布式缓存

分布式缓存Flink提供了一个分布式缓存，类似于hadoop，可以使用户在并行函数中很方便的读取本地文件，并把它放在taskmanager节点中，防止task重复拉取。此缓存的工作机制如下：程序注册一个文件或者目录(本地或者远程文件系统，例如hdfs或者s3)，通过ExecutionEnvironment注册缓存文件并为它起一个名称。当程序执行，Flink自动将文件或者目录复制到所有task...
复制链接

扫一扫