Checkpoint 和 Savepoint 都是用来存储 Flink Job的状态。如果你要用 Flink来上生产,那么 Checkpoint 和 Savepoint是必不可少的。Checkpoint 和 Savepoint 的主要使用场景有以下两种:
在一个Flink Job生命周期内 (JobManager 没有退出),如果某个Task挂掉了,Flink会自动重新启动整个Job,重启Job所使用的状态就是Checkpoint数据 (这个过程也就是我们俗称的Fail over)。
如果一个 Flink Job 挂了(JobManager已经退出),这个时候你要重新启动作业的话(比如用 flink run 重新跑作业),也是可以从Checkpoint 或者 Savepoint 来恢复到原来的状态。
启用Checkpoint
默认情况下,你的Flink Job是没有checkpoint的。在Zeppelin里,你可以通过以下两种方式来启用Checkpoint
Scala API 启用checkpoint
%flink.conf 启用checkpoint
下面分别是两个例子启用Checkpoint,只是做最简单的配置,更多的配置选项请参考Flink官网文档,
https://ci.apache.org/projects/flink/flink-docs-release-1.11/ops/config.html#checkpointing
https://ci.apache.org/projects/flink/flink-docs-release-1.11/dev/stream/state/checkpointing.html
%flinkimport org.apache.flink.streaming.api.environment.CheckpointConfig.ExternalizedCheckpointCleanupimport org.apache.flink.streaming.api.TimeCharacteristicimport org.apache.flink.runtime.state.filesystem.FsStateBackendsenv.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)senv.enableCheckpointing(10 * 1000)senv.setStateBackend(new FsStateBackend("file:///tmp/flink/checkpoints"));val chkConfig = senv.getCheckpointConfigchkConfig.enableExternalizedCheckpoints(ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION)
</