Flink 滑动窗口详细解释及案例（非常全面，建议收藏慢慢看）

最新推荐文章于 2025-04-19 02:11:08 发布

GDDGHS_

最新推荐文章于 2025-04-19 02:11:08 发布

阅读量1.1k

点赞数 34

文章标签： flink 大数据

本文链接：https://blog.csdn.net/GDDGHS_/article/details/144038552

版权

基于时间的滑动和滚动窗口 [重点]

滚动窗口- TumblingWindow概念

流是连续的，无界的（有明确的开始，无明确的结束）

假设有个红绿灯，提出个问题：计算一下通过这个路口的汽车数量

对于这个问题，肯定是无法回答的，为何？

因为，统计是一种对固定数据进行计算的动作。

因为流的数据是源源不断的，无法满足固定数据的要求（因为不知道何时结束）

那么，我们换个问题：统计1分钟内通过的汽车数量

那么，对于这个问题，我们就可以解答了。因为这个问题确定了数据的边界，从无界的流数据中，取出了一部分有边界的数据子集合进行计算。

描述完整就是：每隔1分钟，统计这1分钟内通过汽车的数量。窗口长度是1分钟，时间间隔是1分钟，所以这样的窗口就是滚动窗口。

那么，这个行为或者说这个统计的数据边界，就称之为窗口。

同时，我们的问题，是以时间来划分被处理的数据边界的，那么按照时间划分边界的就称之为：时间窗口

反之，如果换个问题，统计100辆通过的车里面有多少宝马品牌，那么这个边界的划分就是按照数量的，这样的称之为：计数窗口

同时，这样的窗口被称之为滚动窗口，按照窗口划分依据分为：滚动时间窗口、滚动计数窗口。

滑动窗口– SlidingWindow概念

同样是需求，改为：

每隔1分钟，统计前面2分钟内通过的车辆数

对于这个需求我们可以看出，窗口长度是2分钟，每隔1分钟统计一次，窗口长度和时间间隔不相等，并且是大于关系，就是滑动窗口

或者：每通过100辆车，统计前面通过的50辆车的品牌占比

对于这个需求可以看出，窗口长度是50辆车，但是每隔100辆车统计一次

对于这样的窗口，我们称之为滑动窗口。

那么在这里面，统计多少数据是窗口长度（如统计2分钟内的数据，统计50辆车中的数据）

隔多久统计一次称之为滑动距离（如，每隔1分钟，每隔100辆车）

那么可以看出，滑动窗口，就是滑动距离不等于窗口长度的一种窗口

比如，每隔1分钟统计先前5分钟的数据，窗口长度5分钟，滑动距离1分钟，不相等

比如，每隔100条数据，统计先前50条数据，窗口长度50条，滑动距离100条，不相等

那如果相等呢？相等就是比如：每隔1分钟统计前面1分钟的数据，窗口长度1分钟，滑动距离1分钟，相等。

对于这样的需求可以简化成：每隔1分钟统计一次数据，这就是前面说的滚动窗口

那么，我们可以看出：

滚动窗口：窗口长度= 滑动距离

滑动窗口：窗口长度！= 滑动距离

总结：其中可以发现，对于滑动窗口：

滑动距离> 窗口长度，会漏掉数据，比如：每隔5分钟，统计前面1分钟的数据（滑动距离5分钟，窗口长度1分钟，漏掉4分钟的数据）这样的东西，没人用。

滑动距离< 窗口长度，会重复处理数据，比如：每隔1分钟，统计前面5分钟的数据（滑动距离1分钟，窗口长度5分钟，重复处理4分钟的数据）

滑动距离= 窗口长度，不漏也不会重复，也就是滚动窗口

窗口的长度(大小) > 窗口的间隔 : 如每隔5s, 计算最近10s的数据【滑动窗口】

窗口的长度(大小) = 窗口的间隔: 如每隔10s,计算最近10s的数据【滚动窗口】

窗口的长度(大小) < 窗口的间隔: 每隔15s,计算最近10s的数据【没有名字,不用】

案例演示

nc -lk 9999
有如下数据表示:
信号灯编号和通过该信号灯的车的数量
9,3
9,2
9,7
4,9
2,6
1,5
2,3
5,7
5,4
需求1:每5秒钟统计一次，最近5秒钟内，各个路口通过红绿灯汽车的数量--基于时间的滚动窗口
需求2:每5秒钟统计一次，最近10秒钟内，各个路口通过红绿灯汽车的数量--基于时间的滑动窗口

没有添加窗口的写法：

package com.bigdata.day03.time;

import org.apache.flink.api.common.RuntimeExecutionMode;
import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;

public class Demo07 {

    public static void main(String[] args) throws Exception {

        //1. env-准备环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setRuntimeMode(RuntimeExecutionMode.AUTOMATIC);

        //2. source-加载数据
        DataStreamSource<String> streamSource = env.socketTextStream("localhost", 9999);

        // 9,2 --> (9,2)
        //3. transformation-数据处理转换
        streamSource.map(new MapFunction<String, Tuple2<Integer,Integer>>() {

            @Override
            public Tuple2<Integer, Integer> map(String line) throws Exception {
                String[] arr = line.split(",");
                int monitor_id = Integer.valueOf(arr[0]);
                int num = Integer.valueOf(arr[1]);
                return Tuple2.of(monitor_id,num);
            }
        }).keyBy(tuple->tuple.f0).sum(1).print();
        //4. sink-数据输出


        //5. execute-执行
        env.execute();
    }
}

此处的sum求和，中count ,其实是CartInfo中的一个字段而已。

演示

滚动演示

需求1:每5秒钟统计一次，最近5秒钟内，各个路口通过红绿灯汽车的数量--基于时间的滚动窗口

package com.bigdata.day03.time;

import org.apache.flink.api.common.RuntimeExecutionMode;
import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.windowing.assigners.TumblingProcessingTimeWindows;
import org.apache.flink.streaming.api.windowing.time.Time;

public class Demo08 {

    public static void main(String[] args) throws Exception {

        //1. env-准备环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setRuntimeMode(RuntimeExecutionMode.AUTOMATIC);

        //2. source-加载数据
        DataStreamSource<String> streamSource = env.socketTextStream("localhost", 9999);

        // 9,2 --> (9,2)
        //3. transformation-数据处理转换
        streamSource.map(new MapFunction<String, Tuple2<Integer,Integer>>() {

            @Override
            public Tuple2<Integer, Integer> map(String line) throws Exception {
                String[] arr = line.split(",");
                int monitor_id = Integer.valueOf(arr[0]);
                int num = Integer.valueOf(arr[1]);
                return Tuple2.of(monitor_id,num);
            }
        }).keyBy(tuple->tuple.f0)
                .window(TumblingProcessingTimeWindows.of(Time.minutes(1)))
                        .sum(1).print();
        //4. sink-数据输出


        //5. execute-执行
        env.execute();
    }
}

以上代码的时间最好修改为1分钟，假如时间间隔是1分钟，那么48分03秒时输入的信号灯数据，49分整点会统计出来结果，原因是底层有一个算法。

滑动窗口的话，不太容易看到效果，因为有些数据被算到了多个窗口中，需要我们拿笔自己计算一下，对比一下：

接着进行滑动窗口的演示：

需求二：每5秒钟统计一次，最近5秒钟内，各个路口通过红绿灯汽车的数量

package com.bigdata.day03.time;

import org.apache.flink.api.common.RuntimeExecutionMode;
import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.windowing.assigners.SlidingProcessingTimeWindows;
import org.apache.flink.streaming.api.windowing.assigners.TumblingProcessingTimeWindows;
import org.apache.flink.streaming.api.windowing.time.Time;
public class Demo09 {

    public static void main(String[] args) throws Exception {

        //1. env-准备环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setRuntimeMode(RuntimeExecutionMode.AUTOMATIC);

        //2. source-加载数据
        DataStreamSource<String> streamSource = env.socketTextStream("localhost", 9999);

        // 9,2 --> (9,2)
        //3. transformation-数据处理转换
        streamSource.map(new MapFunction<String, Tuple2<Integer,Integer>>() {

            @Override
            public Tuple2<Integer, Integer> map(String line) throws Exception {
                String[] arr = line.split(",");
                int monitor_id = Integer.valueOf(arr[0]);
                int num = Integer.valueOf(arr[1]);
                return Tuple2.of(monitor_id,num);
            }
        }).keyBy(tuple->tuple.f0)
                .window(SlidingProcessingTimeWindows.of(Time.seconds(10),Time.seconds(5)))
                        .sum(1).print();
        //4. sink-数据输出


        //5. execute-执行
        env.execute();
    }
}