- 可以用
StreamExecutionEnvironment.addSource(sourceFunction)
将一个 source 关联到你的程序 - 通过实现
SourceFunction
接口编写自定义的非并行 source - 实现
ParallelSourceFunction
接口,编写自定义的并行 sources - 继承
RichParallelSourceFunction
类编写自定义的并行 sources - 基于文件的数据读取:
readTextFile(path)
- 读取文本文件,按照每行读取数据,返回String字符串readFile(fileInputFormat, path)
- 按照指定的文件输入格式读取(一次)文件- readFile(fileInputFormat, path, watchType, interval, pathFilter, typeInfo),该方法被上面两个方法调用。根据指定的文件输入格式读取指定的目录文件,供的
watchType
的不同,source 可能定期(每interval
毫秒)监控路径上的新数据;watchType的类型已知有两种(FileProcessingMode.PROCESS_CONTINUOUSLY(每interval
毫秒进行监控),FileProcessingMode.PROCESS_ONCE(监控完成就退出));pathFilter
,用户可以进一步排除正在处理的文件。 - 实现:
- flink 底层是将文件读取分为两个子任务,数据目录监控和数据读取;。监控由单个非并行(并行度 = 1)任务实现,而读取由多个并行运行的任务执行;数据读取的并行度和任务的并行度相同;单个监控任务的作用是扫描目录(定期或仅扫描一次,取决于
watchType
),找到要处理的文件,将它们划分为 分片,并将这些分片分配给下游 reader - 重要提示:
- 当watchType 被设置为FileProcessingMode.PROCESS_CONTINUOUSLY模式后,当被读取的文件被修改了,内容会被完全重新处理,可能会打破“精准一次性原则”;
-
如果
watchType
设置为FileProcessingMode.PROCESS_ONCE
,source 扫描一次路径然后退出,无需等待 reader 读完文件内容。当然,reader 会继续读取数据,直到所有文件内容都读完。关闭 source 会导致在那之后不再有检查点。这可能会导致节点故障后恢复速度变慢,因为作业将从最后一个检查点恢复读取。
- flink 底层是将文件读取分为两个子任务,数据目录监控和数据读取;。监控由单个非并行(并行度 = 1)任务实现,而读取由多个并行运行的任务执行;数据读取的并行度和任务的并行度相同;单个监控任务的作用是扫描目录(定期或仅扫描一次,取决于
-
基于套接字读取数据:
-
socketTextStream
- 从套接字读取。元素可以由分隔符分隔
-
-
基于集合:
-
fromCollection(Collection)
- 从 Java Java.util.Collection 创建数据流。集合中的所有元素必须属于同一类型 -
fromCollection(Iterator, Class)
- 从迭代器创建数据流。class 参数指定迭代器返回元素的数据类型 -
fromElements(T ...)
- 从给定的对象序列中创建数据流。所有的对象必须属于同一类型 -
fromParallelCollection(SplittableIterator, Class)
- 从迭代器并行创建数据流。class 参数指定迭代器返回元素的数据类型 -
fromSequence(from, to)
- 基于给定间隔内的数字序列并行生成数据流
-
-
基于自定义方式:
addSource
- 关联一个新的 source function。例如,你可以使用addSource(new FlinkKafkaConsumer<>(...))
来从 Apache Kafka 获取数据。
-
final StreamExecutionEnvironment env = StreamExecutionEnvironment.createLocalEnvironment(); // 从元素列表创建一个 DataStream DataStream<Integer> myInts = env.fromElements(1, 2, 3, 4, 5); // 从任何 Java 集合创建一个 DataStream List<Tuple2<String, Integer>> data = ... DataStream<Tuple2<String, Integer>> myTuples = env.fromCollection(data); // 从迭代器创建一个 DataStream Iterator<Long> longIt = ... DataStream<Long> myLongs = env.fromCollection(longIt, Long.class);
Flink-DataSource
于 2024-09-13 11:08:43 首次发布