Flink-DataSource

computer工程师

已于 2024-09-13 12:42:39 修改

阅读量179

点赞数 2

分类专栏： flink学习文章标签： flink 大数据

于 2024-09-13 11:08:43 首次发布

本文链接：https://blog.csdn.net/tiger_ziren/article/details/142184435

版权

flink学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

可以用 StreamExecutionEnvironment.addSource(sourceFunction) 将一个 source 关联到你的程序
通过实现 SourceFunction 接口编写自定义的非并行 source
实现 ParallelSourceFunction 接口,编写自定义的并行 sources
继承 RichParallelSourceFunction 类编写自定义的并行 sources
基于文件的数据读取：
1. readTextFile(path) - 读取文本文件，按照每行读取数据，返回String字符串
2. readFile(fileInputFormat, path) - 按照指定的文件输入格式读取（一次）文件
3. readFile(fileInputFormat, path, watchType, interval, pathFilter, typeInfo)，该方法被上面两个方法调用。根据指定的文件输入格式读取指定的目录文件，供的 watchType 的不同，source 可能定期（每 interval 毫秒）监控路径上的新数据；watchType的类型已知有两种（FileProcessingMode.PROCESS_CONTINUOUSLY（每 interval 毫秒进行监控），FileProcessingMode.PROCESS_ONCE（监控完成就退出））；pathFilter，用户可以进一步排除正在处理的文件。
4. 实现：
  1. flink 底层是将文件读取分为两个子任务，数据目录监控和数据读取；。监控由单个非并行（并行度 = 1）任务实现，而读取由多个并行运行的任务执行；数据读取的并行度和任务的并行度相同；单个监控任务的作用是扫描目录（定期或仅扫描一次，取决于 watchType），找到要处理的文件，将它们划分为分片，并将这些分片分配给下游 reader
  2. 重要提示：
    1. 当watchType 被设置为FileProcessingMode.PROCESS_CONTINUOUSLY模式后，当被读取的文件被修改了，内容会被完全重新处理，可能会打破“精准一次性原则”；
    2. 如果 watchType 设置为 FileProcessingMode.PROCESS_ONCE，source 扫描一次路径然后退出，无需等待 reader 读完文件内容。当然，reader 会继续读取数据，直到所有文件内容都读完。关闭 source 会导致在那之后不再有检查点。这可能会导致节点故障后恢复速度变慢，因为作业将从最后一个检查点恢复读取。
5. 基于套接字读取数据：
  1. socketTextStream - 从套接字读取。元素可以由分隔符分隔
6. 基于集合：
  1. fromCollection(Collection) - 从 Java Java.util.Collection 创建数据流。集合中的所有元素必须属于同一类型
  2. fromCollection(Iterator, Class) - 从迭代器创建数据流。class 参数指定迭代器返回元素的数据类型
  3. fromElements(T ...) - 从给定的对象序列中创建数据流。所有的对象必须属于同一类型
  4. fromParallelCollection(SplittableIterator, Class) - 从迭代器并行创建数据流。class 参数指定迭代器返回元素的数据类型
  5. fromSequence(from, to) - 基于给定间隔内的数字序列并行生成数据流
7. 基于自定义方式：addSource - 关联一个新的 source function。例如，你可以使用 addSource(new FlinkKafkaConsumer<>(...)) 来从 Apache Kafka 获取数据。

final StreamExecutionEnvironment env = StreamExecutionEnvironment.createLocalEnvironment();

// 从元素列表创建一个 DataStream
DataStream<Integer> myInts = env.fromElements(1, 2, 3, 4, 5);

// 从任何 Java 集合创建一个 DataStream
List<Tuple2<String, Integer>> data = ...
DataStream<Tuple2<String, Integer>> myTuples = env.fromCollection(data);

// 从迭代器创建一个 DataStream
Iterator<Long> longIt = ...
DataStream<Long> myLongs = env.fromCollection(longIt, Long.class);