Flink常用算子总结

最新推荐文章于 2024-01-03 15:17:39 发布

codenow.fun

最新推荐文章于 2024-01-03 15:17:39 发布

阅读量719

点赞数

分类专栏： Flink 大数据

本文链接：https://blog.csdn.net/Jack__iT/article/details/114274626

版权

大数据同时被 2 个专栏收录

18 篇文章 2 订阅

订阅专栏

Flink

4 篇文章 0 订阅

订阅专栏

Streaming 算子

Map，将元素处理转换，再输出。map算子对一个DataStream中的每个元素使用用户自定义的Mapper函数进行处理，每个输入元素对应一个输出元素，最终整个数据流被转换成一个新的DataStream。输出的数据流DataStream<OUT>类型可能和输入的数据流DataStream<IN>不同。我们可以重写MapFunction或RichMapFunction来自定义map函数

public static class DoubleMapFunction implements MapFunction<Integer, String> {
    @Override
    public String map(Integer input) {
      return "function input : " + input + ", output : " + (input * 2);
    }
}

FlatMap，将元素处理转换，再输出（可输出多个）flatMap算子和map有些相似，输入都是数据流中的每个元素，与之不同的是，flatMap的输出可以是零个、一个或多个元素，当输出元素是一个列表时，flatMap会将列表展平。

DataStream<String> longSentenceWords = dataStream.flatMap(new FlatMapFunction<String, String>() {
    @Override
    public void flatMap(String input, Collector<String> collector) throws Exception {
      if (input.length() > 15) {
        for (String word: input.split(" "))
        	collector.collect(word);
      }
    }
});

Filter，过滤，保留条件成立的元素。filter算子对每个元素进行过滤，过滤的过程使用一个Filter函数进行逻辑判断。对于输入的每个元素，如果filter函数返回True，则保留，如果返回False，则丢弃。当然也

DataStream<Integer> dataStream = senv.fromElements(7, 9, 2, 0, 15, 6, 13);

DataStream<Integer> lambda = dataStream.filter ( input -> input > 0 );

此外，也可以继承FilterFunction或RichFilterFunction，然后重写filter方法

KeyBy ，逻辑上将Stream根据指定的Key进行分区，是根据key的散列值进行分区的。keyBy算子将DataStream转换成一个KeyedStream。KeyedStream是一种特殊的DataStream，事实上，KeyedStream继承了DataStream，DataStream的各元素随机分布在各算子实例中，KeyedStream的各元素按照Key分组，相同Key的数据会被分配到同一算子实例中。我们需要向keyBy算子传递一个参数，以告知Flink以什么作为Key进行分组

DataStream<Tuple2<Integer, Double>> dataStream = senv.fromElements(
                Tuple2.of(1, 1.0), Tuple2.of(2, 3.2), Tuple2.of(1, 5.5),
                Tuple2.of(3, 10.0), Tuple2.of(3, 12.5));
DataStream<Tuple2<Integer, Double>> keyedStream = dataStream.keyBy(0).sum(1);

   Reduce，和 MapReduce 中 Reduce 原理基本一致，主要目的是将输入的 KeyedStream 通过传入的用户自定义的 ReduceFunction 滚动地进行数据聚合处理，其中定义的 ReduceFunciton 必须满足运算结合律和交换律。
   Aggregations,Aggregations 是 KeyedDataStream 接口提供的聚合算子，根据指定的字段进行聚合操作，滚动地产生一系列数据聚合结果。其实是将 Reduce 算子中的函数进行了封装，封装的聚合操作有等，这样就不需要用户自己定义 Reduce 函数。
   Union，Union 算子主要是将两个或者多个输入的数据集合并成一个数据集，需要保证两个数据集的格式一致，输出的数据集的格式和输入的数据集格式保持一致。
   Connect，Connect 算子主要是为了合并两种或者多种不同数据类型的数据集，合并后会保留原来数据集的数据类型。
   Split 和 select，Split 算子是将一个 DataStream 数据集按照条件进行拆分，形成两个数据集的过程，也是 union 算子的逆向实现。每个接入的数据都会被路由到一个或者多个输出数据集中。select 算子是选择指定标识的流。
   window，窗口算子