Flink reduce详解

实时即未来

已于 2022-08-30 17:27:07 修改

阅读量1.3k

点赞数

文章标签： flink java jvm

于 2022-08-30 17:24:17 首次发布

本文链接：https://blog.csdn.net/m0_57320261/article/details/126608735

版权

背景：
flink有两种reduce的方式，一种是正常的reduce，一种是windows窗口的reduce，本文主要介绍两种reduce方式的区别
1、正常的reduce
1.1 代码示例

 SingleOutputStreamOperator<WordWithCount> stream = env.addSource(KafkaUtils.getKafkaSource("bds_test","test","user2","user2@9981"))
        //transformation(转换算子)操作，对数据流实现计算;FlatMapFunction<T, O>: T代表输入格式，O代表返回格式
         .flatMap(new FlatMapFunction<String, WordWithCount>() {
            @Override
            // 将用户输入的文本流以非空白符的方式拆开来，得到单个的单词，
            // 存入命名为out的Collector中
            public void flatMap(String value, Collector<WordWithCount> out) throws Exception {
                String[] splits=value.split("\\s");             //通过空格切开
                for(String word:splits){
                    out.collect(new WordWithCount(word,1L));      //写数据处来的结果
                }
            }
        // 将输入的文本分为不相交的分区，每个分区包含的都是具有相同key的元素。
        // 也就是说，相同的单词被分在了同一个区域，下一步的reduce就是统计分区中的个数
        }).keyBy("word")
        // 一个在KeyedDataStream上“滚动”进行的reduce方法。
        // 将上一个reduce过的值和当前element结合，产生新的值并发送出。
        // 此处是说，对输入的两个对象进行合并，统计该单词的数量和
        // 这里使用 sum 或 reduce 都可以
        //.sum("count") ;  // 是对 reduce 的封装实现
        // reduce 返回类型 SingleOutputStreamOperator，继承了 DataStream
                .reduce(new ReduceFunction<WordWithCount>() {
                    @Override
                    public WordWithCount reduce(WordWithCount a, WordWithCount b) throws Exception {
                        return new WordWithCount(a.word,a.count+ b.count);
                    }
                });

从代码中可以看到reduce是跟在keyBy后面的，这时作用于reduce的类是一个KeyStream的类，reduce会保存之前计算的结果，然后和新的数据进行累加，所以每次输出的都是历史所有的数据的总和。
在上面的reduce(WordWithCount a, WordWithCount b) 中，第一个参数t是保存的历史数据，t1是最新的数据。

2、window的reduce
reduce是跟在窗口算子的后面的，这时作用于reduce的类是一个WindowedStream。
既然是针对WindowedStream的操作，很显然，每次reduce的操作都是针对同一个窗口内同一个key的数据进行计算，每个窗口计算完成后，才会把数据发出来。

可以看到，在WindowOperator类中的processElement函数中添加数据状态的时候就进行了reduce的操作，并不是等到整个窗口触发的时候才进行数据计算。等到整个窗口触发的时候，才把reduce计算的结果发送出去。
在上面的reduce(t: SensorReading, t1: SensorReading)函数中，第一个参数t就是同一个窗口内同一个key值的历史信息，第二个参数t1是同一个窗口内同一个key值的最新一条数据。

3、总结
1、keyBy算子之后的reduce，其实计算的是历史以来所有数据的和，每过来一条数据，就输出一次结果。
2、window算子之后的reduce，其实计算的是window窗口内的数据和，每次窗口触发的时候，才会输出一次结果。

实时即未来

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Flink reduce详解

等到整个窗口触发的时候，才把reduce计算的结果发送出去。从代码中可以看到reduce是跟在keyBy后面的，这时作用于reduce的类是一个KeyStream的类，reduce会保存之前计算的结果，然后和新的数据进行累加，所以每次输出的都是历史所有的数据的总和。2、window算子之后的reduce，其实计算的是window窗口内的数据和，每次窗口触发的时候，才会输出一次结果。的方式，一种是正常的reduce，一种是windows窗口的reduce，本文主要介绍两种reduce方式的区别。......
复制链接

扫一扫