Flink 中的 DataStream 程序是对数据流(例如过滤、更新状态、定义窗口、聚合)进行转换的常规程序。数据流的起始是从各种源(例如消息队列、套接字流、文件)创建的。结果通过 sink 返回,例如可以将数据写入文件或标准输出(例如命令行终端)。Flink 程序可以在各种上下文中运行,可以独立运行,也可以嵌入到其它程序中。任务执行可以运行在本地 JVM 中,也可以运行在多台机器的集群上。
DataStream 是什么?
DataStream API 得名于特殊的 DataStream 类,该类用于表示 Flink 程序中的数据集合。你可以认为 它们是可以包含重复项的不可变数据集合。这些数据可以是有界(有限)的,也可以是无界(无限)的,但用于处理它们的API是相同的。
为了创建你自己的 Flink DataStream 程序,我们建议你从 Flink 程序剖析开始
Flink 程序剖析
Flink 程序看起来像一个转换 DataStream 的常规程序。每个程序由相同的基本部分组成:
获取一个执行环境(execution environment);
加载/创建初始数据;
指定数据相关的转换;
指定计算结果的存储位置;
触发程序执行。
对照代码
获取一个执行环境(execution environment);
// 1. 创建执行环境
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env
加载/创建初始数据;
// 2. 获取数据来源
.fromElements("aa text", "bb text", "cc ff", "dd pro")
指定数据相关的转换;
// 3. 转换数据格式
.flatMap(new Splitter())
//4. 重新分区
.keyBy(v ->v.f0)
//5. 统计
.sum(1)
指定计算结果的存储位置;
//6. 打印结果
.print();
触发程序执行。
//7. 执行
env.execute("Window WordCount");
总结
在 Flink 中,应用程序由用户自定义算子转换而来的流式 dataflows 所组成。这些流式 dataflows 形成了有向图,以一个或多个源(source)开始,并以一个或多个汇(sink)结束。