Flink Watermark机制

sf_www

已于 2024-12-19 17:25:15 修改

阅读量2.1k

点赞数 3

分类专栏：实时计算Flink 文章标签： flink 大数据 big data

于 2022-06-23 08:38:05 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chanyue123/article/details/125148937

版权

实时计算Flink 专栏收录该内容

44 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

1. Watermark是什么？用来解决什么问题？

Flink里涉及两个重要的时间，Processing Time（处理时间）和 Event Time（事件时间），而支持事件时间的流处理器需要一种方法来度量事件时间的进度。例如，当事件时间超过一小时后，需要通知构建每小时窗口的窗口操作符，以便该操作符可以关闭正在运行的窗口。怎么确定一个窗口是否已经结束，这在流式数据处理系统中并非一个很容易解决的问题。如果窗口是基于处理时间的，那么问题确实容易解决，因为处理时间是完全基于本地时钟的；但是如果窗口基于事件时间，由于分布式系统中消息可能存在延迟、乱序到达的问题，即便系统已经接收到窗口边界以外的数据了，也不能确定前面的所有数据都已经到达了。水位线（Watermark）机制就是用于解决这个问题的。

Watermark就是在使用事件时间时在内部度量进度的一种机制（本质就是个时间戳，详见org.apache.flink.streaming.api.watermark.Watermark extends StreamElement），换句话说，在处理使用事件时间属性的数据流时，Watermark 是系统测量数据处理进度的一种方法。Watermaker作为数据流的一部分携带着一个时间戳t。一个Watermark(t)表示在

了解本专栏

超级会员免费看

博客等级

码龄15年

大数据领域新星创作者

94
原创

827
点赞

797
收藏

2823
粉丝

关注

私信

热门文章

分类专栏

实时计算Flink 付费 44篇
大数据-Hadoop 15篇
大数据-Spark 6篇
Kafka实战 3篇
架构之路 2篇
linux 3篇
数据库 1篇
MySQL 2篇
oracle 3篇
开发工具 2篇
python
k8s 1篇
设计模式 4篇
web 1篇
Java 3篇
工作流调度 3篇

展开全部收起

最新评论

HDFS垃圾回收源码解析
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)提升标题与正文的相关性。
spark错误集锦
普通网友: 干货满满，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
spark错误集锦
普通网友: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，期待博主持续带来更多好文【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
spark错误集锦
2401_84024576: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，感谢博主的分享，文章思路清晰【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
spark错误集锦
普通网友: 这篇文章是优质之作，内容充实，结构明晰，语言流畅且通俗易懂，适合广大读者阅读。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

sf_www 谢谢支持

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。