Flink Runtime核心机制解析-错误恢复

代码生成工具

于 2020-10-30 15:02:10 发布

阅读量223

点赞数

分类专栏： Flink 文章标签： flink 大数据 java

本文链接：https://blog.csdn.net/u011647020/article/details/109384300

版权

该博客深入解析了Flink Runtime的核心机制，重点讨论了错误恢复过程，包括TASK执行错误和Master节点故障的处理策略，为理解大数据处理系统的稳定性提供了关键洞察。

摘要由CSDN通过智能技术生成

Flink 核心机制解析-错误恢复

概述

概述

错误恢复

在 Flink 作业的执行过程中，除正常执行的流程外，还有可能由于环境等原因导致各种类型的错误。
整体上来说，错误可能分为两大类：Task 执行出现错误或 Flink集群的 Master 出现错误。
由于错误不可避免，为了提高可用性，Flink 需要提供自动错误恢复机制来进行重试。

TASK执行错误

1. Restart-all，即直接重启所有的 Task。由于 Flink 提供了 Checkpoint 机制，因此当任务重启后可以直接从上次的Checkpoint 开始继续执行
2. Restart-individual，它只适用于 Task 之间没有数据传输的情况，这种情况下，只重启出错的任务
3. Restart-region  由于 Flink 的批作业没有 Checkpoint 机制，因此对于需要数据传输的作业，
    直接重启所有 Task 会导致作业从头计算，从而导致一定的性能问题。
   Flink 将 ExecutionGraph 中使用 Pipeline 方式传输数据的 Task 的子图叫做Region，Pipeline Region 会将Blocking 数据落地，可以直接读取仅需要重启Pipeline 边关联的task

作业执行失败

最低0.47元/天解锁文章

代码生成工具

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Flink Runtime核心机制解析-错误恢复

Flink 核心机制解析-错误恢复概述错误恢复TASK执行错误Master 错误概述错误恢复在 Flink 作业的执行过程中，除正常执行的流程外，还有可能由于环境等原因导致各种类型的错误。整体上来说，错误可能分为两大类：Task 执行出现错误或 Flink集群的 Master 出现错误。由于错误不可避免，为了提高可用性，Flink 需要提供自动错误恢复机制来进行重试。TASK执行错误1. Restart-all，即直接重启所有的 Task。由于 Flink 提供了 Checkpoint 机制，
复制链接

扫一扫

专栏目录