1 窗口
Flink设计的目标是为了满足实时计算,这里的实时计算指的是流式处理。
流式处理的得名是说数据像水流一样,从源头源源不断的发送到下游,是真正意义上的实时,更接近数据发生的真实情况。
流式处理是区别于微批,spark是微批,是区别于批处理。所以从离线到实时计算,处理的粒度为批处理(离线)、微批处理(实时)、流处理(实时计算)。根据数据处理的粒度,选择合适的计算方式。
Flink是流式处理,为了满足某些应用场景需要将数据分成一批一批处理添加了窗口的概念。
窗口和watemark结合使用可以处理乱序数据。
2 无窗口
Flink不添加窗口是真正意义上的流式处理,来一条数据处理一条。
Flink应对流式处理数据并发较高的情况下,也做了优化,保证即使高并发情况也不会导致任务失败。
3 Flink技能点说明
- 状态使用Valuestate
- 将窗口和窗口之间产生联系
- 举例:窗口累计统计,使用状态值保存
- 状态后端Statebackend
- 将中间过程缓存的数据转移到别的地方存储,降低flink自身内存压力
- 也可以将状态放入状态后端存储,flink程序从状态后端中取值
- 检查点Checkpoint
- 检查点用于容错机制,任务重启时从检查点恢复,避免数据重复计算
- flink-kafka,利用kafka的特性,可以实现端到端的一致性
- 水印Waterark
- 触发窗口关闭,释放数据
- watermark是一个时间戳
- 定时器OnTimer
- 避免窗口时间过长,添加定时器触发计算,一种计算机制
- 触发器Trigger
- 触发器决定了一个窗口何时可以被窗口函数处理,条件满足时触发并发出信号
- 每一个WindowAssigner都有一个默认的触发器,可以通过调用trigger()指定一个自定义触发器
- 触发器有5个方法允许触发器处理不同事件(Trigger)
- onElement():每个元素被添加到窗口时调用
- onElement():当一个已注册的事件时间计时器启动时调用
- onProcessingTime(): 当一个已注册的处理时间计时器启动时调用
- onMerge():与状态性触发器相关,当使用session window时,两个触发器对应的窗口合并时,合并两个触发器的状态
- clear():相应窗口被清除时触发
- 前三个方法通过返回TriggerResult来决定如何对其调用事件进行操作。该操作可以是以下操作之一
-
-
- CONTINUE:什么也不做
- FIRE:触发计算
- PURGE:清除窗口中的数据
- FIRE_AND_PURGE:触发计算并随后清除窗口中的元素
-
- 复杂时间处理CEP
- 定义CEP规则,过滤出符合CEP规则的数据