
Flink 1.11 版本
1. 配置
如果我们的任务已经执行很长时间,突然遇到故障停止,那么中间过程处理结果就会全部丢失,重启后需要重新从上一次开始的位置消费,这会花费我们很长的时间。这种结局显示我们不能接受,我们希望的是作业在故障失败重启后能保留之前的状态并能从失败的位置继续消费。可以通过如下配置保存处理状态:
final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();// 开启Checkpointenv.enableCheckpointing(1000);// 设置状态后端env.setStateBackend(new FsStateBackend("hdfs://localhost:9000/flink/checkpoint"));env.getCheckpointConfig().setMinPauseBetweenCheckpoints(500);env.getCheckpointConfig().setCheckpointTimeout(60000);
作业停止后 CheckPoint 数据默认会自动删除,所以需要如下配置来设置在作业失败被取消后 CheckPoint 数据不被删除:
env.getCheckpointConfig().enableExternalizedCheckpoints(CheckpointConfig.ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION);
2. 验证
我们使用经典的 WordCount 实例来验证从 Checkpoint 中恢复作业并能沿用之前的状态信息。为了模拟作业失败并能恢复,我们判断当我们输入是 “ERROR” 时,抛出异常迫使作业失败:
public void flatMap(String value, Collector out) {
// 失败信号 if (Objects.equals(value, "ERROR")) {
throw new RuntimeException("custom error flag, restart application"); } ...}
为了确保作业在失败后能自动恢复,我们设置了重启策略,失败后最多重启3次,每次重启间隔10s:
env.setRestartStrategy(RestartStrategies.fixedDelayRestart(3, 10000));
我们看一下详细的代码:
public class RestoreCheckpointExample {
public static void main(String[] args) throws Exception {
final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); // 配置Checkpoint env.enableCheckpointing(1000); env.setStateBackend(new FsStateBackend("hdfs://localhost:9000/flink/checkpoint")); env.getCheckpointConfig().setMin

本文介绍了如何配置Flink 1.11版本以实现从Checkpoint中恢复作业,通过WordCount实例验证恢复过程,并展示了作业在遇到错误时的状态变化。在配置中,设置保存CheckPoint数据以防止作业失败后状态丢失。在验证过程中,当输入为'ERROR'时,作业会因异常而失败,但能根据重启策略最多尝试3次恢复。在状态变化部分,详细描绘了作业从FAILED到RESTARTING再到RUNNING的过程,以及最终在超过重启限制后作业的彻底失败。
最低0.47元/天 解锁文章
6666

被折叠的 条评论
为什么被折叠?



