通过前面我们可以知道 Flink Job 的大致结构就是 Source ——> Transformation ——> Sink
那么这个 Source 是什么意思呢?
Data Source 介绍
Data Source 是什么呢?就字面意思其实就可以知道:数据来源。
Flink 中你可以使用 StreamExecutionEnvironment.addSource(sourceFunction) 来为你的程序添加数据来源。
Flink 已经提供了若干实现好了的 source function,当然你也可以通过实现 SourceFunction 来自定义非并行的 source 或者实现 ParallelSourceFunction 接口或者扩展 RichParallelSourceFunction 来自定义并行的 source。
基于集合:
- fromCollection(Collection) - 从 Java 的 Java.util.Collection 创建数据流。集合中的所有元素类型必须相同。
- fromCollection(Iterator, Class) - 从一个迭代器中创建数据流。Class 指定了该迭代器返回元素的类型。
- fromElements(T …) - 从给定的对象序列中创建数据流。所有对象类型必须相同。
- fromParallelCollection(SplittableIterator, Class) - 从一个迭代器中创建并行数据流。Class 指定了该迭代器返回元素的类型。
- generateSequence(from, to) - 创建一个生成指定区间范围内的数字序列的并行数据流。
基于文件:
- readTextFile(path) - 读取文本文件,即符合 TextInputFormat 规范的文

最低0.47元/天 解锁文章
676

被折叠的 条评论
为什么被折叠?



