Flink基础（四）：Windows详解

最新推荐文章于 2024-08-28 14:58:45 发布

Hello Guava

最新推荐文章于 2024-08-28 14:58:45 发布

阅读量498

点赞数 2

分类专栏： Flink学习之路文章标签： flink

本文链接：https://blog.csdn.net/weixin_42155491/article/details/104879824

版权

下面我们结合一个现实的例子来说明。

就拿交通传感器的示例：统计经过某红绿灯的汽车数量之和？

假设在一个红绿灯处，我们每隔 15 秒统计一次通过此红绿灯的汽车数量，如下图：
在这里插入图片描述
可以把汽车的经过看成一个流，无穷的流，不断有汽车经过此红绿灯，因此无法统计总共的汽车数量。但是，我们可以换一种思路，每隔 15 秒，我们都将与上一次的结果进行 sum 操作（滑动聚合），如下：

在这里插入图片描述

这个结果似乎还是无法回答我们的问题，根本原因在于流是无界的，我们不能限制流，但可以在有一个有界的范围内处理无界的流数据。因此，我们需要换一个问题的提法：每分钟经过某红绿灯的汽车数量之和？

这个问题，就相当于一个定义了一个 Window（窗口），Window 的界限是 1 分钟，且每分钟内的数据互不干扰，因此也可以称为翻滚（不重合）窗口，如下图：
在这里插入图片描述
第一分钟的数量为 18，第二分钟是 28，第三分钟是 24……这样，1 个小时内会有 60 个 Window。

再考虑一种情况，每 30 秒统计一次过去 1 分钟的汽车数量之和：
在这里插入图片描述
此时，Window 出现了重合。这样，1 个小时内会有 120 个 Window。

通常来讲，Window 就是用来对一个无限的流设置一个有限的集合，在有界的数据集上进行操作的一种机制。Window 又可以分为基于时间（Time-based）的 Window 以及基于数量（Count-based）的 window。

flink在KeyedStream（DataStream 的继承类）中提供了三种窗口类型：

dataStream.keyBy(1)
    .timeWindow(Time.minutes(1)) //time Window 每分钟统计一次数量和
    .sum(1);

同时也支持滑动的时间窗口，比如每隔 30s 去统计过去一分钟窗口内的数据

dataStream.keyBy(1)
    .timeWindow(Time.minutes(1), Time.seconds(30)) //sliding time Window 每隔 30s 统计过去一分钟的数量

关注

专栏目录