Hadoop-2.4.1学习之ResourceManager重启

最新推荐文章于 2024-04-25 13:01:30 发布

skyWalker_ONLY

最新推荐文章于 2024-04-25 13:01:30 发布

阅读量9.9k

点赞数 2

分类专栏： Hadoop-2.x Hadoop 文章标签： hadoop-1.2.1 ResourceManager zookeeper 状态存储 ApplicationMaster

Hadoop 同时被 2 个专栏收录

49 篇文章 ¥9.90 ¥99.00

订阅专栏

Hadoop-2.x

29 篇文章 ¥9.90 ¥99.00

订阅专栏

ResourceManager在YARN集群中扮演关键角色，其重启特性旨在减少单点故障影响。文章详细介绍了ResourceManager重启的两个阶段，包括状态存储、RM与NM、AM的交互。在Hadoop 2.4.0中仅实现第一阶段，RM重启后会重新提交应用程序，但工作可能丢失。配置参数如`yarn.resourcemanager.recovery.enabled`和`yarn.resourcemanager.store.class`等对启用和定制RM重启功能至关重要。

ResourceManager是管理资源和调度运行在YARN上的应用程序的中央机构，因此在一个YARN集群中ResourceManager可能是单点故障的，即只存在一个ResourceManager，这样在该节点出现故障时，就需要尽快重启ResourceManager，以尽可能地减少损失。本文将学习ResourceManager重启的特性，该特性使ResourceManager在重启时可以继续运行，并且在ResourceManager处于故障时对最终用户不可见。

ResourceManager重启可以划分为两个阶段。第一阶段，增强的ResourceManager（RM）将应用程序的状态和其它认证信息保存到一个插入式的状态存储中。RM重启时将从状态存储中重新加载这些信息，然后重新开始之前正在运行的应用程序，用户不需要重新提交应用程序。第二阶段，重启时通过从NodeManagers读取容器的状态和从ApplicationMasters读取容器的请求，集中重构RM的运行状态。与第一阶段不同的是，在第二阶段中，之前正在运行的应用程序将不会在RM重启后被杀死，所以应用程序不会因为RM中断而丢失工作。在Hadoop-2.4.0版本中实现了RM重启的第一阶段（第二阶段还未实现）。

由于目前的版本中只实现了RM重启的第一阶段，因此只能对该阶段进行学习。通过上面的综述可知，RM在客户端提交应用时，将应用程序的元数据（如ApplicationSubmissionContext）保存到插入式的状态存储中，RM还保存应用程序的最终状态，如完成状态（失败, 被杀死, 执行成功），以及应用完成时的诊断。除

了解本专栏