Flink重启策略

最新推荐文章于 2022-12-01 14:12:04 发布

落幕7

最新推荐文章于 2022-12-01 14:12:04 发布

阅读量1k

点赞数 1

分类专栏： # Flink 文章标签： flink 大数据

原文链接：http://flink.iteblog.com/dev/restart_strategies.html

版权

Flink 专栏收录该内容

9 篇文章 1 订阅

订阅专栏

文章目录

Flink 支持多种不同的重启策略，这些策略控制了在失败情况下工作要如何重启。集群在启动时会伴随一个默认的重启策略，在没有定义具体工作重启策略时会使用该默认策略。如果在工作提交时制定一个重启策略，该策略会覆盖集群的默认设定。

概览

默认的重启策略可以通过 Flink 的配置文件 flink-conf.yaml 指定。配置参数 restart-strategy 定义了哪个策略被使用。如果没有启用 checkpointing，则使用无重启 (no restart) 策略。如果启用了 checkpointing，但没有配置重启策略，则使用固定间隔 (fixed-delay) 策略，其中 Integer.MAX_VALUE 参数是尝试重启次数。参阅下列可用的重启策略来了解什么值能被支持。

每个重启策略都有自己的一组参数来控制策略的行为。这些值也可以在配置文件中设置。每个重启策略的描述包括了更多关于对应配置值的信息。

重启策略	对应值
固定间隔 (Fixed delay)	fixed-delay
失败率 (Failure rate)	failure-rate
无重启 (No restart)	none

除了定义默认的重启策略，也可以为每个 Flink 工作定义一个具体的重启策略。这个重启策略可以通过调用 ExecutionEnvironment 的 setRestartStrategy 方法在编程时设置。该方法对 StreamExecutionEnvironment 同样有效。

下列例子展示我们如何为我们的工作设置一个固定间隔重启策略。在失败的情况下，系统会重启工作 3 次，并在连续两次尝试重启中等待 10 秒

val env = ExecutionEnvironment.getExecutionEnvironment()
env.setRestartStrategy(RestartStrategies.fixedDelayRestart(
  3, // 尝试重启的次数
  Time.of(10, TimeUnit.SECONDS) // 间隔
))

重启策略

以下各部分描述与具体重启策略相关的配置选项。

固定间隔 (Fixed Delay) 重启策略

固定截个重启策略会根据指定的次数尝试重启工作。如果超过了最大尝试次数，则工作最终失败。在连续两次的重启尝试中，重启策略会等待一段固定的时间。

这个策略可以通过设置 flink-conf.yaml 中的下列配置参数作为默认策略启动。

restart-strategy: fixed-delay

配置参数	描述	默认值
restart-strategy.fixed-delay.attempts	在工作宣布失败之前 Flink 尝试重启的次数	1, 或 Integer.MAX_VALUE 如果被 checkpointing 激活
restart-strategy.fixed-delay.delay	间隔重启指的是在一次失败的执行之后，并不会立即重新开始另一次执行，而是在一段间隔之后再开始. 当程序与外部系统进行交互时，比如连接或待定事务需要在 Flink 尝试重新执行之前超时，该方法是有助的	akka.ask.timeout, 或 10s 如果被 checkpointing 激活

举个例子:

restart-strategy.fixed-delay.attempts: 3
restart-strategy.fixed-delay.delay: 10 s

固定间隔重启策略也可以在编程时进行设定

val env = ExecutionEnvironment.getExecutionEnvironment()
env.setRestartStrategy(RestartStrategies.fixedDelayRestart(
3, // 尝试重启的次数
Time.of(10, TimeUnit.SECONDS) // 间隔
))

失败率 (Failure Rate) 重启策略

失败率重启策略在失败后重启工作，当超过 failure rate (一个时间段内的失败次数) 时工作宣告失败。在连续两次重启尝试中，该重启策略会等待一端固定的时间。

这个策略可以通过设置 flink-conf.yaml 中的下列配置参数作为默认策略启动。

restart-strategy: failure-rate

配置参数	描述	默认值
restart-strategy.failure-rate.max-failures-per-interval	在工作宣告失败之前，给定时间段内的最大重启次数	1
restart-strategy.failure-rate.failure-rate-interval	衡量失败率的时间段.	1 minute
restart-strategy.failure-rate.delay	连续两次重启尝试间的间隔	akka.ask.timeout

restart-strategy.failure-rate.max-failures-per-interval: 3
restart-strategy.failure-rate.failure-rate-interval: 5 min
restart-strategy.failure-rate.delay: 10 s

失败率重启策略也可以在编程时进行设定

val env = ExecutionEnvironment.getExecutionEnvironment()
env.setRestartStrategy(RestartStrategies.failureRateRestart(
  3, // 一个时间段内的最大失败次数
  Time.of(5, TimeUnit.MINUTES), // 衡量失败次数的是时间段
  Time.of(10, TimeUnit.SECONDS) // 间隔
))

无重启 (No Restart) 策略

没有任何工作重启，若工作失败则直接宣告失败。

restart-strategy: none

无重启策略也可以通过编程来设定

val env = ExecutionEnvironment.getExecutionEnvironment()
env.setRestartStrategy(RestartStrategies.noRestart())

回调 (Fallback) 重启策略

使用集群定义的重启策略。该策略对启用 checkpointing 的流式程序有帮助。如果没有其他的定义的重启策略，每一次默认启用都会启动固定间隔重启策略，

落幕7

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Flink重启策略

目录概览重启策略固定间隔 (Fixed Delay) 重启策略失败率 (Failure Rate) 重启策略无重启 (No Restart) 策略回调 (Fallback) 重启策略 Flink 支持多种不同的重启策略，这些策略控制了在失败情况下工作要如何重启。集群在启动时会伴随一个默认的重启策略，在没有定义具体工作重启策略时会使用该默认策略。如果在工作提交时制定一个重启策略，该策略会覆盖集群的默认设定。概览默认的重启策略可以...
复制链接

扫一扫