Flink 1.11 版本
1. 配置
如果我们的任务已经执行很长时间,突然遇到故障停止,那么中间过程处理结果就会全部丢失,重启后需要重新从上一次开始的位置消费,这会花费我们很长的时间。这种结局显示我们不能接受,我们希望的是作业在故障失败重启后能保留之前的状态并能从失败的位置继续消费。可以通过如下配置保存处理状态:
final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();// 开启Checkpointenv.enableCheckpointing(1000);// 设置状态后端env.setStateBackend(new FsStateBackend("hdfs://localhost:9000/flink/checkpoint"));env.getCheckpointConfig().setMinPauseBetweenCheckpoints(500);env.getCheckpointConfig().setCheckpointTimeout(60000);
作业停止后 CheckPoint 数据默认会自动删除,所以需要如下配置来设置在作业失败被取消后 CheckPoint 数据不被删除:
env.getCheckpointConfig().enableExternalizedCheckpoints(CheckpointConfig.ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION);
2. 验证
我们使用经典的 WordCount 实例来验证从 Checkpoint 中恢复作业并能沿用之前的状态信息。为了模拟作业失败并能恢复,我们判断当我们输入是 “ERROR” 时,抛出异常迫使作业失败:
public void flatMap(String value, Collector out) {
// 失败信号 if (Objects.equals(value, "ERROR")) {
throw new RuntimeException("custom error flag, restart application"); } ...}
为了确保作业在失败后能自动恢复,我们设置了重启策略,失败后最多重启3次,每次重启间隔10s:
env.setRestartStrategy(RestartStrategies.fixedDelayRestart(3, 10000));
我们看一下详细的代码:
public class RestoreCheckpointExample {
public static void main(String[] args) throws Exception {
final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); // 配置Checkpoint env.enableCheckpointing(1000); env.setStateBackend(new FsStateBackend("hdfs://localhost:9000/flink/checkpoint")); env.getCheckpointConfig().setMin