YARN-Failover

最新推荐文章于 2022-09-04 13:30:48 发布

368chen

最新推荐文章于 2022-09-04 13:30:48 发布

阅读量243

点赞数

分类专栏：大数据文章标签： hadoop 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_16236875/article/details/106315792

版权

大数据专栏收录该内容

17 篇文章 1 订阅

订阅专栏

失败的类型

1. 程序问题

2.进程崩溃

3. 硬件问题

失败处理

1 任务失败

1）运行时异常或者JVM 退出都会报告给ApplicationMaster

2）通过心跳来检查挂住的任务(timeout),会检查多次(可配置），才判断改任务是否失效

3). 一个作业的任务失败率超过配置，则任务改作业失败

4).失败的任务或作业都会有ApplicationMaster 重新运行

2. ApplicationMaster 失败

1). ApplicationMaster 定时发送心跳信号到ResourceManager，通常一旦ApplicationMaster 失败，则认为失败，但也可以通过配置多次后才失败。

2). 一旦ApplicationMaster 失败，ResourceManager 会启动一个新的ApplicationMaster

3). 新的ApplicationMaster 负责恢复之前的错误的ApplicationMaster 的状态，这一步是通过将应用运行状态保存到共享的存储上来实现的，ResourceManager 不会负责任务状态的保存和恢复。

4). Client 也会定时间向ApplicationMaster 查询进度和状态，一旦发现其失败，则向ResourceManager 询问新的ApplicationMaster。

3 NodeManager 失败

1).NodeManager 定时发送心跳到ResourceManager ，如果超过一段时间没有收到心跳消息，ResourceManager 就会将其移除。

2). 任何运行在该NodeManager上的任务和ApplicationMaster 都会在其他NodeManager 上进行恢复。

3). 如果某个NodeManager 失败的次数太多，ApplicationMaster 会将其加入黑名单（ResourceManager没有），任务调度时不在其上运行任务。

4. ResourceManager 失败

1）通过checkpoint 机制，定时将其状态保存到磁盘，然后失败的时候，重新运行。

2）通过zookeeper 同步状态和实现透明的HA

可以看出，一般的错误处理都是由当前模块的父模块进行监控（心跳）和恢复，而最顶端的模块则通过定时保存，同步状态和zookeeper 来实现HA。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。