Flink重点知识整理02

文章介绍了流处理中的滑动窗口和会话窗口概念,强调了事件时间和处理时间的语义差异。此外,讨论了无状态和有状态计算在处理数据时的不同,以及有状态计算如何利用检查点技术确保故障恢复。还提到了数据一致性的三种级别,并指出Kafka在大数据领域的角色,作为消息队列和流处理平台。
摘要由CSDN通过智能技术生成

11.滑动窗口(SlidingWindow):定义一个固定的窗口长度和一个滑动长度

12.会话窗口(SessionWindow):窗口长度不固定,根据会话间隔(SessionGap)确定窗口,两个事件之间的间隔大于会话间隔(SessionGap),则两个事件被划分到不同的窗口中

13.时间语义:EventTime事件实际发生的时间ProcessingTime事件被流处理引擎处理的时间

14.无状态:流处理中,不需要额外信息,给定一个输入数据,直接得到输出——将英文单词转化为小写。

15.有状态:根据历史信息,处理新流入数据。——统计一分钟内单词出现次数,需要保存已经进入系统的历史。

16.有状态计算是指在程序计算过程中,在Flink程序内部存储计算产生的中间结果,并提供给后续Function或算子计算结果使用。

17.使用检查点技术,将中间数据保存下来,(根据Checkpoint中保存的状态数据重新恢复任务)用于故障后的恢复

18.数据一致性保障·At-Most-Once:每个事件最多被处理一次。(有些数据被丢弃,最不安全)·At-Least-Once:每个事件至少被处理一次,有些事件可能被处理多次。(部分数据被处理多次,可能不准确。)·Exactly-Once:每个事件只被处理一次。(事件不丢不重,实现难度最大)

19.Kafka是面向大数据领域的消息队列框架——发挥作用:数据集成和系统解耦

20.kafka不仅是一个消息队列,也有数据存储和流处理的功能

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值