Flink Checkpoint & Savepoint 机制

最新推荐文章于 2024-06-22 00:27:49 发布

不会秃头的小白菜

最新推荐文章于 2024-06-22 00:27:49 发布

阅读量355

点赞数

分类专栏： #+ Flink学习

本文链接：https://blog.csdn.net/qq_45536740/article/details/104783208

版权

#+ Flink学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

由于Flink是⼀个有状态计算的流服务，因此状态的管理和容错是⾮常重要的。为了保证程序的健壮性，Flink提出Checkpoint机制，该机制⽤于持久化计算节点的状态数据，继⽽实现Flink故障恢复。所谓的Checkpoint机制指的是Flink会定期的持久化的状态数据。将状态数据持久化到远程⽂件系统（取决于State backend），例如HDFS，该检查点协调或者发起是由JobManager负责实施。JobManager会定期向下游的计算节点发送Barrier（栅栏），下游计算节点收到该Barrier信号之后，会预先提交⾃⼰的状态信息，并且给JobManage以应答，同时会继续将接收到的Barrier继续传递给下游的任务节点，⼀次内推，所有的下游计算节点在收到该Barrier信号的时候都会做预提交⾃⼰的状态信息。等到所有的下游节点都完成了状态的预提交，并且JobManager收集完成所有下游节点的应答之后，JobManager才会认定此次的Checkpoint是成功的，并且会⾃动删除上⼀次检查点数据。

在这里插入图片描述
Savepoint是⼿动触发的Checkpoint，Savepoint为程序创建快照并将其写到State Backend。Savepoint依靠常规的Checkpoint机制。所谓的Checkpoint指的是程序在执⾏期间，程序会定期在⼯作节点上快照并产⽣Checkpoint。为了进⾏恢复，仅需要获取最后⼀次完成的Checkpoint即可，并且可以在新的Checkpoint完成后⽴即安全地丢弃较旧的Checkpoint。

Savepoint与这些定期Checkpoint类似，Savepoint由⽤户触发并且更新的Checkpoint完成时不会⾃动过期。⽤户可以使⽤命令⾏或通过REST API取消作业时创建Savepoint。

由于Flink 中的Checkpoint机制默认是不开启的，需要⽤户通过调⽤以下⽅法开启检查点机制:

env.enableCheckpointing(1000);

为了控制检查点执⾏的⼀些细节，Flink⽀持⽤户定制Checkpoiont的⼀些⾏为:

 //间隔5s执⾏⼀次checkpoint 精准⼀次
 env.enableCheckpointing(5000,CheckpointingMode.EXACTLY_ONCE)
 //设置检查点超时 4s
 env.getCheckpointConfig.setCheckpointTimeout(4000)
 //开启本次检查点 与上⼀次完成的检查点时间间隔不得⼩于 2s 优先级⾼于 checkpoint interval
 env.getCheckpointConfig.setMinPauseBetweenCheckpoints(2000)
 //如果检查点失败，任务宣告退出 setFailOnCheckpointingErrors(true)
 env.getCheckpointConfig.setTolerableCheckpointFailureNumber(0)
 //设置如果任务取消，系统该如何处理检查点数据
 //RETAIN_ON_CANCELLATION:如果取消任务的时候，没有加--savepoint，系统会保留检查点数据
 //DELETE_ON_CANCELLATION:取消任务，⾃动是删除检查点（不建议使⽤）
 env.getCheckpointConfig.enableExternalizedCheckpoints(ExternalizedCheckpointCleanup.
RETAIN_ON_CANCELLATION)