flink checkpoint 恢复_Flink 从Checkpoint中恢复作业

3bef2f5fa39421102634dadaf99e8109.png

Flink 1.11 版本

1. 配置

如果我们的任务已经执行很长时间,突然遇到故障停止,那么中间过程处理结果就会全部丢失,重启后需要重新从上一次开始的位置消费,这会花费我们很长的时间。这种结局显示我们不能接受,我们希望的是作业在故障失败重启后能保留之前的状态并能从失败的位置继续消费。可以通过如下配置保存处理状态:

final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();// 开启Checkpointenv.enableCheckpointing(1000);// 设置状态后端env.setStateBackend(new FsStateBackend("hdfs://localhost:9000/flink/checkpoint"));env.getCheckpointConfig().setMinPauseBetweenCheckpoints(500);env.getCheckpointConfig().setCheckpointTimeout(60000);

作业停止后 CheckPoint 数据默认会自动删除,所以需要如下配置来设置在作业失败被取消后 CheckPoint 数据不被删除:

env.getCheckpointConfig().enableExternalizedCheckpoints(CheckpointConfig.ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION);

2. 验证

我们使用经典的 WordCount 实例来验证从 Checkpoint 中恢复作业并能沿用之前的状态信息。为了模拟作业失败并能恢复,我们判断当我们输入是 “ERROR” 时,抛出异常迫使作业失败:

public void flatMap(String value, Collector out) {
        // 失败信号    if (Objects.equals(value, "ERROR")) {
            throw new RuntimeException("custom error flag, restart application");    }    ...}

为了确保作业在失败后能自动恢复,我们设置了重启策略,失败后最多重启3次,每次重启间隔10s:

env.setRestartStrategy(RestartStrategies.fixedDelayRestart(3, 10000));

我们看一下详细的代码:

public class RestoreCheckpointExample {
        public static void main(String[] args) throws Exception {
            final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();        // 配置Checkpoint        env.enableCheckpointing(1000);        env.setStateBackend(new FsStateBackend("hdfs://localhost:9000/flink/checkpoint"));        env.getCheckpointConfig().setMin
  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值