重新启动ResourceManger----官网谷歌翻译

最新推荐文章于 2024-04-25 13:01:30 发布

RunningShare

最新推荐文章于 2024-04-25 13:01:30 发布

阅读量350

点赞数

分类专栏：大数据 Hadoop

原文链接：https://hadoop.apache.org/docs/r2.6.3/hadoop-yarn/hadoop-yarn-site/ResourceManagerRestart.html

版权

大数据同时被 2 个专栏收录

67 篇文章 1 订阅

订阅专栏

Hadoop

40 篇文章 1 订阅

订阅专栏

重新启动ResourceManger

重新启动ResourceManger

总览

ResourceManager是管理资源并计划在YARN之上运行的应用程序的中央机构。因此，它可能是Apache YARN群集中的单点故障。

本文档概述了ResourceManager重新启动，此功能可增强ResourceManager使其在重新启动后仍能正常运行，并且还使ResourceManager的停机时间对最终用户不可见。

ResourceManager重新启动功能分为两个阶段：

ResourceManager重新启动阶段1：增强RM，以将应用程序/尝试状态和其他凭据信息保留在可插拔状态存储中。RM将在重新启动后从状态存储中重新加载此信息，并重新启动以前运行的应用程序。不需要用户重新提交应用程序。

ResourceManager重新启动阶段2：通过重新启动时从NodeMangers读取容器状态和ApplicationMasters的容器请求，着重于重构ResourceManger的运行状态。与阶段1的主要区别在于，RM重新启动后，先前运行的应用程序将不会被杀死，因此应用程序不会因RM中断而失去工作。

从Hadoop 2.4.0版本开始，仅实现ResourceManager重新启动阶段1，如下所述。

总体概念是，当客户端提交应用程序时，RM会将应用程序元数据（即ApplicationSubmissionContext）保留在可插拔状态存储中，并在完成时保存应用程序的最终状态（例如完成状态（失败，终止，完成）和诊断）。申请完成。此外，RM还保存凭据（如安全密钥，令牌）以在安全环境中工作。只要RM在状态存储中可用，只要RM关闭，只要状态存储中有所需的信息（即应用程序元数据和附带的凭据，如果在安全环境中运行，则附带凭据），RM重启后，便可以从状态存储中获取应用程序元数据并重新提交申请。如果RM在停机之前已经完成（即失败，中止，完成），则RM不会重新提交申请。

在RM停机期间，NodeMangers和客户端将继续轮询RM，直到RM出现为止。RM启用后，它将通过心跳向正在与之通信的所有NodeManger和ApplicationMaster发送重新同步命令。今天，NodeMangers和ApplicationMasters处理此命令的行为是：NM将杀死其所有托管容器并向RM重新注册。从RM的角度来看，这些重新注册的NodeManager与新加入的NM相似。今天的AM（例如MapReduce AM）有望在收到重新同步命令后关闭。RM重新启动并从状态存储加载所有应用程序元数据，凭据并将其填充到内存后，它将为每个尚未完成的应用程序创建新的尝试（即ApplicationMaster），并照常重新启动该应用程序。如前所述

构型

本节介绍了启用RM重新启动功能所涉及的配置。

启用ResourceManager重新启动功能。
要启用RM重新启动功能，请将conf / yarn-site.xml中的以下属性设置为true：

属性值
yarn.resourcemanager.recovery.enabled 真正

属性	值
yarn.resourcemanager.recovery.enabled	真正

配置用于保留RM状态的状态存储。

属性	描述
yarn.resourcemanager.store.class	用于保存应用程序/尝试状态和凭据的状态存储的类名称。可用的状态存储实现为org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore（基于ZooKeeper的状态存储实现）和org.apache.hadoop.yarn.server.resourcemanager.recovery.FileSystemRMStateStore（Hadoop文件系统）基于状态存储的实现，例如HDFS。默认值设置为org.apache.hadoop.yarn.server.resourcemanager.recovery.FileSystemRMStateStore。

属性

描述

yarn.resourcemanager.store.class

用于保存应用程序/尝试状态和凭据的状态存储的类名称。可用的状态存储实现为org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore（基于ZooKeeper的状态存储实现）和org.apache.hadoop.yarn.server.resourcemanager.recovery.FileSystemRMStateStore（Hadoop文件系统）基于状态存储的实现，例如HDFS。默认值设置为org.apache.hadoop.yarn.server.resourcemanager.recovery.FileSystemRMStateStore。

使用基于Hadoop FileSystem的状态存储实现时的配置。

配置将RM状态保存在Hadoop FileSystem状态存储中的URI。

属性	描述
yarn.resourcemanager.fs.state-store.uri	指向将存储RM状态的FileSystem路径位置的URI（例如hdfs：// localhost：9000 / rmstore）。默认值为$ hadoop.tmp.dir / yarn / system / rmstore。如果未提供FileSystem名称，将使用在conf / core-site.xml中指定的fs.default.name。

配置重试策略状态存储客户端用于连接Hadoop FileSystem的策略。

属性	描述
yarn.resourcemanager.fs.state-store.retry-policy-spec	Hadoop FileSystem客户端重试策略规范。始终启用Hadoop FileSystem客户端重试。以成对的睡眠时间和重试次数（即（t0，n0），（t1，n1），...）指定，前n0个重试平均睡眠t0毫秒，随后的n1个重试平均睡眠t1毫秒，等等。默认值为（2000，500）

使用基于ZooKeeper的状态存储实现时的配置。

配置ZooKeeper服务器地址和RM状态存储的根路径。

属性	描述
yarn.resourcemanager.zk地址	以逗号分隔的Host：Port对列表。每个都对应于RM将用于存储RM状态的ZooKeeper服务器（例如“ 127.0.0.1:3000,127.0.0.1:3001、127.0.0.1:3002”）。
yarn.resourcemanager.zk-state-store.parent-path	将存储RM状态的根znode的完整路径。默认值为/ rmstore。

配置状态存储客户端用于连接ZooKeeper服务器的重试策略。

属性	描述
yarn.resourcemanager.zk-num-retries	如果连接丢失，RM尝试连接到ZooKeeper服务器的次数。默认值为500。
yarn.resourcemanager.zk重试间隔毫秒	连接到ZooKeeper服务器时，两次重试之间的间隔（以毫秒为单位）。默认值为2秒。
yarn.resourcemanager.zk-timeout-ms	ZooKeeper会话超时（以毫秒为单位）。ZooKeeper服务器使用此配置来确定会话何时过期。当服务器在此配置指定的会话超时时间内未收到客户端的消息（即无心跳）时，就会发生会话到期。默认值为10秒

配置用于在ZooKeeper znode上设置权限的ACL。

属性	描述
yarn.resourcemanager.zk-acl	用于在ZooKeeper znode上设置权限的ACL。默认值为world：anyone：rwcda

配置应用程序重试的最大次数。

属性	描述
yarn.resourcemanager.am.max尝试	应用程序尝试的最大次数。这是所有应用程序主机的全局设置。每个应用程序主机可以通过API指定其最大的应用程序尝试次数，但是该次数不能超过全局上限。如果是的话，RM将覆盖它。默认数字设置为2，以允许至少一次重试AM。

该配置的影响实际上超出了RM重新启动范围。它控制应用程序可以尝试的最大次数。在RM重新启动阶段1中，此配置是必需的，因为如前所述，每次RM重新启动时，它将终止先前运行的尝试（即ApplicationMaster）并创建新的尝试。因此，每次RM重新启动都会使尝试计数增加1。在RM重新启动阶段2中，不需要此配置，因为先前运行的ApplicationMaster不会被杀死，并且RM重新启动后AM只会与RM重新同步。

RunningShare

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
重新启动ResourceManger----官网谷歌翻译

重新启动ResourceManger重新启动ResourceManger 总览特征构型总览ResourceManager是管理资源并计划在YARN之上运行的应用程序的中央机构。因此，它可能是Apache YARN群集中的单点故障。本文档概述了ResourceManager重新启动，此功能可增强ResourceManager使其在重新启动后仍能正常运行，并且还使Re...
复制链接

扫一扫