第 21 节　Flink Distributed Cache(分布式缓存)

最新推荐文章于 2021-11-17 09:00:00 发布

江湖侠客

最新推荐文章于 2021-11-17 09:00:00 发布

阅读量381

点赞数

分类专栏： Flink入门实战

本文链接：https://blog.csdn.net/weixin_39868387/article/details/104761807

版权

Flink入门实战专栏收录该内容

41 篇文章 11 订阅

订阅专栏

上篇：第 20 节　Flink Counters（scala）

1、Flink Broadcast和Accumulators的区别

Broadcast(广播变量)允许程序员将一个只读的变量缓存在每台机器上，而不用在任务之间传递变量。广播变量可以进行共享，但是不可以进行修改
Accumulators(累加器)是可以在不同任务中对同一个变量进行累加操作。

2、Flink Distributed Cache(分布式缓存)

Flink提供了一个分布式缓存，类似于hadoop，可以使用户在并行函数中很方便的读取本地文件
此缓存的工作机制如下：程序注册一个文件或者目录(本地或者远程文件系统，例如hdfs或者s3)，通过ExecutionEnvironment注册缓存文件并为它起一个名称。当程序执行，Flink自动将文件或者目录复制到所有taskmanager节点的本地文件系统，用户可以通过这个指定的名称查找文件或者目录，然后从taskmanager节点的本地文件系统访问它

用法

1：注册一个文件
env.registerCachedFile(“hdfs:///path/to/your/file”, “hdfsFile”)

2：访问数据
File myFile = getRuntimeContext().getDistributedCache().getFile(“hdfsFile”);

3、代码实现：

package cache

import org.apache.commons.io.FileUtils
import org.apache.flink.api.common.functions.RichMapFunction
import org.apache.flink.api.scala.ExecutionEnvironment
import org.apache.flink.configuration.Configuration


/**
 * Flink Distributed Cache(分布式缓存)
 */
object BatchDemoDisCacheScala {
  def main(args: Array[String]): Unit = {
    //获取flink的运行环境
    val env = ExecutionEnvironment.getExecutionEnvironment
    //隐式转化
    import org.apache.flink.api.scala._

    //1、注册文件
    env.registerCachedFile("d:\\data\\file\\a.txt","b.txt")

    val data = env.fromElements("a", "b", "c", "d")

     val result=  data.map(new RichMapFunction[String,String] {

      override def open(parameters: Configuration): Unit = {
        super.open(parameters)
        val myfile = getRuntimeContext.getDistributedCache.getFile("b.txt")
        val lines = FileUtils.readLines(myfile)
        val it=lines.iterator()
        while (it.hasNext){
          val line = it.next()
          println("line:"+line)
        }

      }

      override def map(value: String): String = {
        value
      }
    })

    result.print()
    }
}

启动idea的代码程序，控制台打印信息：

在这里插入图片描述

江湖侠客

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
第 21 节　Flink Distributed Cache(分布式缓存)

上篇：第 20 节　Flink Counters（scala）1、Flink Broadcast和Accumulators的区别Broadcast(广播变量)允许程序员将一个只读的变量缓存在每台机器上，而不用在任务之间传递变量。广播变量可以进行共享，但是不可以进行修改Accumulators(累加器)是可以在不同任务中对同一个变量进行累加操作。2、Flink Distributed...
复制链接

扫一扫