流式计算-low watermark机制

本文介绍了流式计算中的Low Watermark机制,它用于解决数据延迟问题,保证Window计算的完整性和时效性。文章阐述了Window的概念,Processing Time与Event Time的区别,并通过例子解释了Low Watermark如何工作,以及其在数据流处理中的重要性。
摘要由CSDN通过智能技术生成

前言

最近在学习流式计算相关的知识,在阅读了MillWheel论文,在这里对low watermark机制做一个总结与介绍。

Window

实时数据流是永不停歇的,我们无法获取所有的数据并产出一个最终的结果。很多情况下我们更关心的是最近的状态,而不是从实时数据流启动至今的统计数据。因此需要将数据流切分为一个个片段,这些片段形象的称为Window。总而言之,Window是将无边界的实时数据流进行划分的一种机制。

Window大体分为三种:

  • Time Window:依靠时间作为划分Window的依据,意思就是设立一个时间间隔来结束window,进行计算
    • Fixed Window:固定窗口,数据彼此不重叠
    • Sliding Window:滑动窗口,数据会重叠

这里写图片描述

  • Session Window:依靠用户的会话作为划分Window的依据
    session window主要依靠设立的时间间隔来划分一个window,即session gap。session window没有具体的结束和开始时间,当一个window中超过session gap时间还没有元素到来,该window就会结束并进行计算,此时就称为一个会话。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值