上篇:第 20 节 Flink Counters(scala)
1、Flink Broadcast和Accumulators的区别
- Broadcast(广播变量)允许程序员将一个只读的变量缓存在每台机器上,而不用在任务之间传递变量。广播变量可以进行共享,但是不可以进行修改
- Accumulators(累加器)是可以在不同任务中对同一个变量进行累加操作。
2、Flink Distributed Cache(分布式缓存)
Flink提供了一个分布式缓存,类似于hadoop,可以使用户在并行函数中很方便的读取本地文件
此缓存的工作机制如下:程序注册一个文件或者目录(本地或者远程文件系统,例如hdfs或者s3),通过ExecutionEnvironment注册缓存文件并为它起一个名称。当程序执行,Flink自动将文件或者目录复制到所有taskmanager节点的本地文件系统,用户可以通过这个指定的名称查找文件或者目录,然后从taskmanager节点的本地文件系统访问它
用法
1:注册一个文件
env.registerCachedFile(“hdfs:///path/to/your/file”, “hdfsFile”)
2:访问数据
File myFile = getRuntimeContext().getDistributedCache().getFile(“hdfsFile”);
3、代码实现:
package cache
import org.apache.commons.io.FileUtils
import org.apache.flink.api.common.functions.RichMapFunction
import org.apache.flink.api.scala.ExecutionEnvironment
import org.apache.flink.configuration.Configuration
/**
* Flink Distributed Cache(分布式缓存)
*/
object BatchDemoDisCacheScala {
def main(args: Array[String]): Unit = {
//获取flink的运行环境
val env = ExecutionEnvironment.getExecutionEnvironment
//隐式转化
import org.apache.flink.api.scala._
//1、注册文件
env.registerCachedFile("d:\\data\\file\\a.txt","b.txt")
val data = env.fromElements("a", "b", "c", "d")
val result= data.map(new RichMapFunction[String,String] {
override def open(parameters: Configuration): Unit = {
super.open(parameters)
val myfile = getRuntimeContext.getDistributedCache.getFile("b.txt")
val lines = FileUtils.readLines(myfile)
val it=lines.iterator()
while (it.hasNext){
val line = it.next()
println("line:"+line)
}
}
override def map(value: String): String = {
value
}
})
result.print()
}
}
启动idea的代码程序,控制台打印信息: