Flink Runtime核心机制解析-错误恢复

该博客深入解析了Flink Runtime的核心机制,重点讨论了错误恢复过程,包括TASK执行错误和Master节点故障的处理策略,为理解大数据处理系统的稳定性提供了关键洞察。
摘要由CSDN通过智能技术生成

Flink 核心机制解析-错误恢复

概述

错误恢复

在 Flink 作业的执行过程中,除正常执行的流程外,还有可能由于环境等原因导致各种类型的错误。
整体上来说,错误可能分为两大类:Task 执行出现错误或 Flink集群的 Master 出现错误。
由于错误不可避免,为了提高可用性,Flink 需要提供自动错误恢复机制来进行重试。

TASK执行错误

1. Restart-all,即直接重启所有的 Task。由于 Flink 提供了 Checkpoint 机制,因此当任务重启后可以直接从上次的Checkpoint 开始继续执行
2. Restart-individual,它只适用于 Task 之间没有数据传输的情况,这种情况下,只重启出错的任务
3. Restart-region  由于 Flink 的批作业没有 Checkpoint 机制,因此对于需要数据传输的作业,
    直接重启所有 Task 会导致作业从头计算,从而导致一定的性能问题。
   Flink 将 ExecutionGraph 中使用 Pipeline 方式传输数据的 Task 的子图叫做Region,Pipeline Region 会将Blocking 数据落地,可以直接读取仅需要重启Pipeline 边关联的task

作业执行失败

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值