YARN-Failover

失败的类型

1. 程序问题

2.进程崩溃

3. 硬件问题

失败处理

1 任务失败

1)运行时异常或者JVM 退出都会报告给ApplicationMaster

2)通过心跳来检查挂住的任务(timeout),会检查多次(可配置),才判断改任务是否失效

3). 一个作业的任务失败率超过配置,则任务改作业失败

4).失败的任务或作业都会有ApplicationMaster 重新运行

2. ApplicationMaster 失败

1). ApplicationMaster 定时发送心跳信号到ResourceManager,通常一旦ApplicationMaster 失败,则认为失败,但也可以通过配置多次后才失败。

2). 一旦ApplicationMaster 失败,ResourceManager 会启动一个新的ApplicationMaster

3). 新的ApplicationMaster 负责恢复之前的错误的ApplicationMaster 的状态,这一步是通过将应用运行状态保存到共享的存储上来实现的,ResourceManager 不会负责任务状态的保存和恢复。

4). Client 也会定时间向ApplicationMaster 查询进度和状态,一旦发现其失败,则向ResourceManager 询问新的ApplicationMaster。

3 NodeManager 失败

1).NodeManager 定时发送心跳到ResourceManager ,如果超过一段时间没有收到心跳消息,ResourceManager 就会将其移除。

2). 任何运行在该NodeManager上的任务和ApplicationMaster 都会在其他NodeManager 上进行恢复。

3). 如果某个NodeManager 失败的次数太多,ApplicationMaster 会将其加入黑名单(ResourceManager没有),任务调度时不在其上运行任务。

4. ResourceManager 失败

1) 通过checkpoint  机制,定时将其状态保存到磁盘,然后失败的时候,重新运行。

2)通过zookeeper 同步状态和实现透明的HA

可以看出,一般的错误处理都是由当前模块的父模块进行监控(心跳)和恢复,而最顶端的模块则通过定时保存,同步状态和zookeeper 来实现HA。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值