11.滑动窗口(SlidingWindow):定义一个固定的窗口长度和一个滑动长度
12.会话窗口(SessionWindow):窗口长度不固定,根据会话间隔(SessionGap)确定窗口,两个事件之间的间隔大于会话间隔(SessionGap),则两个事件被划分到不同的窗口中
13.时间语义:EventTime事件实际发生的时间ProcessingTime事件被流处理引擎处理的时间
14.无状态:流处理中,不需要额外信息,给定一个输入数据,直接得到输出——将英文单词转化为小写。
15.有状态:根据历史信息,处理新流入数据。——统计一分钟内单词出现次数,需要保存已经进入系统的历史。
16.有状态计算是指在程序计算过程中,在Flink程序内部存储计算产生的中间结果,并提供给后续Function或算子计算结果使用。
17.使用检查点技术,将中间数据保存下来,(根据Checkpoint中保存的状态数据重新恢复任务)用于故障后的恢复
18.数据一致性保障·At-Most-Once:每个事件最多被处理一次。(有些数据被丢弃,最不安全)·At-Least-Once:每个事件至少被处理一次,有些事件可能被处理多次。(部分数据被处理多次,可能不准确。)·Exactly-Once:每个事件只被处理一次。(事件不丢不重,实现难度最大)
19.Kafka是面向大数据领域的消息队列框架——发挥作用:数据集成和系统解耦
20.kafka不仅是一个消息队列,也有数据存储和流处理的功能