由于新版本已经实现了流批一体,所以DataSet API将被弃用,官方推荐统一使用DataStream API来处理流数据和批数据。
DataStream(数据流)本身是Flink中一个用来表示数据集合的类,我们编写的Flink代码其实就是基于这种数据类型的处理,所以这套核心API就以DataStream命名。对于流处理和铺处理,我们都可以用这同一套API来实现。
用DataStream上API对数据进行一连串的调用,就叫作数据流的"转换"(transformation)。
一个Flink程序就是对DataStream的各种转换。具体来说,代码基本上都由以下几部分构成:
1、获取执行环境(execution environment)
2、读取数据源(source)
3、定义基于数据的转换操作(transformation)
4、定义计算结果的输出位置(sink)
5、触发程序执行(execute)