一.概述
Flink中的每个函数和运算符都可以是有状态的。有状态功能在处理单个元素/事件的过程中存储数据,使状态成为任何类型的更复杂操作的关键构建块。
为了使状态容错,Flink需要检查点状态。检查点允许Flink恢复流中的状态和位置,从而为应用程序提供与无故障执行相同的语义。
二.先决条件
Flink的检查点机制与流和状态的持久存储交互。通常,它要求:
- 持久(或耐用,可以重放某个时间段内一定量的记录)的数据源。此类消息源是持久消息队列(例如,Apache Kafka,RabbitMQ,Amazon Kinesis,Google PubSub)或文件系统(例如,HDFS,S3,GFS,NFS,Ceph等)。
- 状态的持久性存储,通常是分布式文件系统(例如,HDFS,S3,GFS,NFS,Ceph等)。
三.启用和配置检查点
默认情况下,检查点处于禁用状态。为了使用检查点,需要StreamExecutionEnvironment上设置enableCheckpointing(n),其中n是以毫秒为单位的检查点间隔。
用于检查点的其他参数包括:
- 精确一次与最少一次:可以选择将模式传递给enableCheckpointing(n)方法,以在两个保证级别之间进行选择。对于大多数应用而言,一次最好。至少一次可能与某些超低延迟(持续几毫秒)的应用有关。 <