Flink-DataSource

  1. 可以用 StreamExecutionEnvironment.addSource(sourceFunction) 将一个 source 关联到你的程序
  2. 通过实现 SourceFunction 接口编写自定义的非并行 source
  3. 实现 ParallelSourceFunction 接口,编写自定义的并行 sources
  4. 继承 RichParallelSourceFunction 类编写自定义的并行 sources
  5. 基于文件的数据读取
    1. readTextFile(path) - 读取文本文件,按照每行读取数据,返回String字符串
    2. readFile(fileInputFormat, path) - 按照指定的文件输入格式读取(一次)文件
    3. readFile(fileInputFormat, path, watchType, interval, pathFilter, typeInfo),该方法被上面两个方法调用。根据指定的文件输入格式读取指定的目录文件,供的 watchType 的不同,source 可能定期(每 interval 毫秒)监控路径上的新数据;watchType的类型已知有两种(FileProcessingMode.PROCESS_CONTINUOUSLY(每 interval 毫秒进行监控),FileProcessingMode.PROCESS_ONCE(监控完成就退出));pathFilter,用户可以进一步排除正在处理的文件。
    4. 实现:
      1. flink 底层是将文件读取分为两个子任务,数据目录监控数据读取;。监控由单个非并行(并行度 = 1)任务实现,而读取由多个并行运行的任务执行;数据读取的并行度和任务的并行度相同;单个监控任务的作用是扫描目录(定期或仅扫描一次,取决于 watchType),找到要处理的文件,将它们划分为 分片,并将这些分片分配给下游 reader
      2. 重要提示
        1. 当watchType 被设置为FileProcessingMode.PROCESS_CONTINUOUSLY模式后,当被读取的文件被修改了,内容会被完全重新处理,可能会打破“精准一次性原则”;
        2. 如果 watchType 设置为 FileProcessingMode.PROCESS_ONCE,source 扫描一次路径然后退出,无需等待 reader 读完文件内容。当然,reader 会继续读取数据,直到所有文件内容都读完。关闭 source 会导致在那之后不再有检查点。这可能会导致节点故障后恢复速度变慢,因为作业将从最后一个检查点恢复读取。

    5. 基于套接字读取数据:

      1. socketTextStream - 从套接字读取。元素可以由分隔符分隔

    6. 基于集合

      1. fromCollection(Collection) - 从 Java Java.util.Collection 创建数据流。集合中的所有元素必须属于同一类型

      2. fromCollection(Iterator, Class) - 从迭代器创建数据流。class 参数指定迭代器返回元素的数据类型

      3. fromElements(T ...) - 从给定的对象序列中创建数据流。所有的对象必须属于同一类型

      4. fromParallelCollection(SplittableIterator, Class) - 从迭代器并行创建数据流class 参数指定迭代器返回元素的数据类型

      5. fromSequence(from, to) - 基于给定间隔内数字序列并行生成数据流

    7. 基于自定义方式:addSource - 关联一个新的 source function。例如,你可以使用 addSource(new FlinkKafkaConsumer<>(...)) 来从 Apache Kafka 获取数据。

  6. final StreamExecutionEnvironment env = StreamExecutionEnvironment.createLocalEnvironment();
    
    // 从元素列表创建一个 DataStream
    DataStream<Integer> myInts = env.fromElements(1, 2, 3, 4, 5);
    
    // 从任何 Java 集合创建一个 DataStream
    List<Tuple2<String, Integer>> data = ...
    DataStream<Tuple2<String, Integer>> myTuples = env.fromCollection(data);
    
    // 从迭代器创建一个 DataStream
    Iterator<Long> longIt = ...
    DataStream<Long> myLongs = env.fromCollection(longIt, Long.class);

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值