每个flink程序都包含以下若干流程
1、获得一个执行环境:(Execution Environment)
2、加载、创建初始数据;(source)
3、转换这些数据;(Transformation)
4、处理计算结果;(sink)
5、触发程序执行。
Environment:
之行环境StreamingExecutionEnvironment是有所Flink程序的基础。
创建环境有三种方式
StreamingExecutionEnvironment.getExecutionEnvironment
StreamingExecutionEnvironment.createLocalEnvironment
StreamingExecutionEnvironment.createRemoteEnvironment
1、StreamingExecutionEnvironment.getExecutionEnvironment
创建一个执行环境,表示当前执行程序的上下文。
如果程序时独立调用的,则此方式返回本地执行环境;
如果程序以集群方式运行,即提交到集群中运行,则此方法返回集群的执行环境。
总结:getExecutionEnvironment会根据查询运行的方式,决定返回什么样的环境。
是最常用的一种创建执行环境的方式。
val env = StreamingExecutionEnvironment.getExecutionEnvironment
2、StreamingExecutionEnvironment.createLocalEnvironment
返回本地执行环境
3、StreamingExecutionEnvironment.createRemoteEnvironment
返回集群运行环境
Source
初始化数据
完成环境初始化后,需要将数据引入Flink系统
ExecutionEnvironment 提供了对接不同数据源的方法,可以将外部数据转换成 DataStream 或 DataSet
例如:val text = env.readTextFile("H:\\.....")
Flink提供很多连接器,可以对接多种数据源
Transformation
执行数据转换
TransFormation 操作都是通过不同的 Operation 来实现
每个Operation内部通过实现 Function 接口完成数据的处理逻辑。
sink
输出结果
输出到外部系统或者控制台
print writeAsText
程序触发:
把所有逻辑写好后,需要调用 exectue方法来触发应用程序操作
注:DateSet API中,已经包含了 execult 操作,不需要显示调用