Ambari理论及使用介绍

最新推荐文章于 2024-08-07 09:04:08 发布

hmxz1024

最新推荐文章于 2024-08-07 09:04:08 发布

阅读量2.6k

点赞数 2

分类专栏：大数据组件

原文链接：https://www.ibm.com/developerworks/cn/opensource/os-cn-bigdata-ambari2/

版权

大数据组件专栏收录该内容

9 篇文章

订阅专栏

本文转载整理自：Ambari——大数据平台的搭建利器及Ambari——大数据平台的搭建利器之进阶篇，针对内容有重点提取，完整内容请参考原博客。

Ambari 是什么

Ambari 跟 Hadoop 等开源软件一样，也是 Apache Software Foundation 中的一个项目，并且是顶级项目。目前最新的发布版本是 2.0.1，未来不久将发布 2.1 版本。就 Ambari 的作用来说，就是创建、管理、监视 Hadoop 的集群，但是这里的 Hadoop 是广义，指的是 Hadoop 整个生态圈（例如 Hive，Hbase，Sqoop，Zookeeper 等），而并不仅是特指 Hadoop。用一句话来说，Ambari 就是为了让 Hadoop 以及相关的大数据软件更容易使用的一个工具。

说到这里，大家就应该明白什么人最需要 Ambari 了。那些苦苦花费好几天去安装、调试 Hadoop 的初学者是最能体会到 Ambari 的方便之处的。而且，Ambari 现在所支持的平台组件也越来越多，例如流行的 Spark，Storm 等计算框架，以及资源调度平台 YARN 等，我们都能轻松地通过 Ambari 来进行部署。

Ambari 自身也是一个分布式架构的软件，主要由两部分组成：Ambari Server 和 Ambari Agent。简单来说，用户通过 Ambari Server 通知 Ambari Agent 安装对应的软件；Agent 会定时地发送各个机器每个软件模块的状态给 Ambari Server，最终这些状态信息会呈现在 Ambari 的 GUI，方便用户了解到集群的各种状态，并进行相应的维护。详细的操作和介绍会在后续章节介绍。

Ambari 的安装

安装准备

关于 Ambari 的安装，目前网上能找到两个发行版，一个是 Apache 的 Ambari，另一个是 Hortonworks 的，两者区别不大。这里就以 Apache 的 Ambari 2.0.1 作为示例。本文使用三台 Redhat 6.6 作为安装环境（目前测试验证结果为 Ambari 在 Redhat 6.6 的版本上运行比较稳定），三台机器分别为 zwshen37.example.com、zwshen38.example.com、zwshen39.example.com。zwshen37 计划安装为 Ambari 的 Server，另外两台为 Ambari Agent。

安装 Ambari 最方便的方式就是使用公共的库源（public repository）。有兴趣的朋友可以自己研究一下搭建一个本地库（local repository）进行安装。这个不是重点，所以不在此赘述。在进行具体的安装之前，需要做几个准备工作。

SSH 的无密码登录；
Ambari 的 Server 会 SSH 到 Agent 的机器，拷贝并执行一些命令。因此我们需要配置 Ambari Server 到 Agent 的 SSH 无密码登录。在这个例子里，zwshen37 可以 SSH 无密码登录 zwshen38 和 zwshen39。
确保 Yum 可以正常工作；
通过公共库（public repository），安装 Hadoop 这些软件，背后其实就是应用 Yum 在安装公共库里面的 rpm 包。所以这里需要您的机器都能访问 Internet。
确保 home 目录的写权限。
Ambari 会创建一些 OS 用户。
确保机器的 Python 版本大于或等于 2.6.（Redhat6.6，默认就是 2.6 的）。
以上的准备工作完成后，便可以真正的开始安装 Ambari 了。

安装过程

首先需要获取 Ambari 的公共库文件（public repository）。登录到 Linux 主机并执行下面的命令（也可以自己手工下载）：

wget <a href="http://public-repo-1.hortonworks.com/ambari/centos6/2.x/updates/2.0.1/ambari.repo"><code>http://public-repo-1.hortonworks.com/ambari/centos6/2.x/updates/2.0.1/ambari.repo</code></a>

将下载的 ambari.repo 文件拷贝到 Linux 的系统目录/etc/yum.repos.d/。拷贝完后，我们需要获取该公共库的所有的源文件列表。依次执行以下命令。

yum clean all
yum list|grep ambari

如果可以看到 Ambari 的对应版本的安装包列表，说明公共库已配置成功。然后就可以安装 Ambari 的 package 了。执行下面的命令安装 Ambari Server 到该机器。

yum install ambari-server

待安装完成后，便需要对 Ambari Server 做一个简单的配置。执行下面的命令。

amari-server setup

在这个交互式的设置中，采用默认配置即可。Ambari 会使用 Postgres 数据库，默认会安装并使用 Oracle 的 JDK。默认设置了 Ambari GUI 的登录用户为 admin/admin。并且指定 Ambari Server 的运行用户为 root。

简单的 setup 配置完成后。就可以启动 Ambari 了。运行下面的命令。

ambari-server start

当成功启动 Ambari Server 之后，便可以从浏览器登录，默认的端口为 8080。以本文环境为例，在浏览器的地址栏输入 http://zwshen37.example.com:8080，登录密码为 admin/admin。登入 Ambari 之后的页面如下图。
在这里插入图片描述
至此，Ambari Server 就安装完成了。

Ambari 的架构和工作原理

Ambari 基本的架构和工作原理如下图所示。
在这里插入图片描述
Ambari Server 会读取 Stack 和 Service 的配置文件。当用 Ambari 创建集群的时候，Ambari Server 传送 Stack 和 Service 的配置文件以及 Service 生命周期的控制脚本到 Ambari Agent。Agent 拿到配置文件后，会下载安装公共源里软件包（Redhat，就是使用 yum 服务）。安装完成后，Ambari Server 会通知 Agent 去启动 Service。之后 Ambari Server 会定期发送命令到 Agent 检查 Service 的状态，Agent 上报给 Server，并呈现在 Ambari 的 GUI 上。

Ambari Server 支持 Rest API，这样可以很容易的扩展和定制化 Ambari。甚至于不用登陆 Ambari 的 GUI，只需要在命令行通过 curl 就可以控制 Ambari，以及控制 Hadoop 的 cluster。具体的 API 可以参见 Apache Ambari 的官方网页 API reference。

对于安全方面要求比较苛刻的环境来说，Ambari 可以支持 Kerberos 认证的 Hadoop 集群。

扩展 Ambari 管理一个自定义的 Service

首先，我们需要规划自定义的 Service 属于哪个 Stack（当然 Stack 也是可以自定义的）。这里为了快速创建一个新的 Service，而且我们已经安装了 HDP 2.2 的 Stack，所以就将自定义的 Service 放在 HDP 2.2 之下。

第一步，首先在 Ambari Service 机器上找到 HDP 2.2 Stack 的目录，如下图所示。
第二步，需要创建一个 Service 目录，我们这里用“SAMPLE”作为目录名。并在 SAMPLE 底下创建 metainfo.xml。示例代码如下。主要解释下 xml 代码中的两个字段 category 和 cardinality。category 指定了该模块（Component）的类别，可以是 MASTER、SLAVE、CLIENT。Cardinality 指的是所要安装的机器数，可以是固定数字 1，可以是一个范围比如 1-2，也可以是 1+，或者 ALL。如果是一个范围的时候，安装的时候会让用户选择机器。另外这里有关 Service 和 Component 的 name 配置要用大写，小写有时候会有问题。Displayname 可以随意设置。

<?xml version="1.0"?>
<metainfo>
 <schemaVersion>2.0</schemaVersion>
 <services>
 <service>
 <name>SAMPLE</name>
 <displayName>My Sample</displayName>
 <comment>My v1 Sample</comment>
 <version>1.0</version>
 <components>
 <component>
 <name>MYMASTER</name>
 <displayName>My Master</displayName>
 <category>MASTER</category>
 <cardinality>1</cardinality>
 <commandScript>
 <script>scripts/master.py</script>
 <scriptType>PYTHON</scriptType>
 <timeout>5000</timeout>
 </commandScript>
 </component>
 <component>
 <name>MYSALVE</name>
 <displayName>My Slave</displayName>
 <category>SLAVE</category>
 <cardinality>1+</cardinality>
 <commandScript>
 <script>scripts/slave.py</script>
 <scriptType>PYTHON</scriptType>
 <timeout>5000</timeout>
 </commandScript>
 </component>
 </components>
 <osSpecifics>
 <osSpecific>
 <osFamily>any</osFamily>
 </osSpecific>
 </osSpecifics>
 </service>
 </services>
</metainfo>

第三步，需要创建 Service 的控制脚本。这里我们需要在 SAMPLE 底下创建一个 package 目录，然后在 package 底下创建目录 scripts ，进而创建 master.py 和 slave.py。这里需要保证脚本路径和上一步中 metainfo.xml 中的配置路径是一致的。这两个 Python 脚本是用来控制 Master 和 Slave 模块的生命周期。脚本中函数的含义也如其名字一样：install 就是安装调用的接口；start、stop 分别就是启停的调用；Status 是定期检查 component 状态的调用；Configure 是安装完成配置该模块的调用。示例目录结构如下图。
Python 脚本的示例代码：

Master.py：

import sys, os
from resource_management import *
from resource_management.core.exceptions import ComponentIsNotRunning
from resource_management.core.environment import Environment
from resource_management.core.logger import Logger
 
class Master(Script):
 def install(self, env):
 print "Install My Master"
 
 def configure(self, env):
 print "Configure My Master"
 
 def start(self, env):
 print "Start My Master"
 
 def stop(self, env):
 print "Stop My Master"
 
 def status(self, env): 
 print "Status..."
 
if __name__ == "__main__":
 Master().execute()

Slave.py:

import sys, os
from resource_management import *
from resource_management.core.exceptions import ComponentIsNotRunning
from resource_management.core.environment import Environment
from resource_management.core.logger import Logger
 
class Slave(Script):
 def install(self, env):
 print "Install My Slave"
 
 def configure(self, env):
 print "Configure My Slave"
 
 def start(self, env):
 print "Start My Slave"
 
 def stop(self, env):
 print "Stop My Slave"
 def status(self, env): 
 print "Status..."
 
if __name__ == "__main__":
 Slave().execute()

第四步，需要重启 Ambari Server。因为 Ambari Server 只有在重启的时候才会读取 Service 和 Stack 的配置。命令行执行：

ambari-server restart

第五步，登录 Ambari 的 GUI，点击左下角的 Action，选择 Add Service。就可以看到我们自定义的 Service：SAMPLE。如下图：
在这里插入图片描述

Ambari 的自定义命令（Custom Command）

在 Ambari 的 Stack 中，每个 Service 都会有 start、stop、status、configure 这样的命令，我们称之为生命周期的控制命令（lifecycle command）。Service 的每个模块（Component）都必须实现这几个命令的逻辑。为了让用户可以更好地控制每个 Service 以及每个模块，Ambari 支持了自定义命令（Custom Command）。不过目前只能支持到模块级别（Component Level），Service Level 的还不支持。

具体的自定义命令配置在每个 Service 的 metainfo.xml 中。不过不同的模块类型，呈现在 GUI 的方式是有差异的。当给一个 Service 的 Master 模块增加一个自定义命令时，该命令会显示在该 Service 的 Service Action List。如果点击这个命令，Ambari Server 就会通知 Master 所在机器的 Agent，Agent 就会执行该自定义命令的逻辑。当增加一个自定义命令给 Slave 或 Client 类型的 Component（模块），该命令则会呈现在机器的 Component 页面。在哪个机器的 Component 页面点击该命令，Ambari Server 就会通知该机器 Agent 调用这个自定义的命令接口。

Master Component 的自定义命令

这里我以 YARN 为例，给 Resource Manger 模块（Master）增加一个自定义命令。首先假设一个需求，例如，要在 YARN 的 Service Action 里面加一个命令来检查 Resource Manger 所在机器的内存空间还有多大。

第一步，需要找到 Yarn 的 metainfo.xml，并在 Resource Manager 的 Component 配置中增加一个自定义命令。Component 段的示例代码如下（metainfo.xml），其中 GetMem 这个命令就是我们新增的自定义命令。

<component>
<name>RESOURCEMANAGER</name>
<displayName>ResourceManager</displayName>
<category>MASTER</category>
<cardinality>1</cardinality>
<versionAdvertised>true</versionAdvertised>
<commandScript>
<script>scripts/resourcemanager.py</script>
<scriptType>PYTHON</scriptType>
<timeout>1200</timeout>
</commandScript>
<customCommands>
<customCommand>
<name>DECOMMISSION</name>
<commandScript>
<script>scripts/resourcemanager.py</script>
<scriptType>PYTHON</scriptType>
<timeout>600</timeout>
</commandScript>
</customCommand>
<customCommand>
<name>REFRESHQUEUES</name>
<commandScript>
<script>scripts/resourcemanager.py</script>
<scriptType>PYTHON</scriptType>
<timeout>600</timeout>
</commandScript>
</customCommand>
<!--新增部分 -->
<customCommand>
<name>GetMem</name>
<commandScript>
<script>scripts/resourcemanager.py</script>
<scriptType>PYTHON</scriptType>
<timeout>600</timeout>
</commandScript>
</customCommand>
</customCommands>
<configuration-dependencies>
<config-type>capacity-scheduler</config-type>
</configuration-dependencies>
</component>

第二步，实现自定义命令的逻辑。这里 CustomComand 的 xml 段已经指定了具体的脚本（resourcemanager.py），所以需要在这个脚本中增加该命令的接口，而且函数名必须是小写且与配置的中的 name 保持一致。接下来，我们需要先找到 Ambari Server 上的 resourcemanager.py 文件。找到之后，在 resourcemanager.py 增加如下的示例代码（python 脚本中注意代码的对齐方式，否则会出现语法错误。可以参考 resourcemanager.py 中的 decommission 函数）：

def getmem(self, env):
import os
print 'Execute this coustom command to get mem info on this host'
os.system("free")

第三步，重启 Ambari Server 以及 Resource Manger 所在机器的 Ambari Agent。这一步为了加载新的配置，并且同步我们修改的脚本到 Agent 机器。因为在每个 Agent 的机器上，都有一个 cache 目录，用来存放从 Server 端下载的配置及脚本。当重启 Agent 时候，Agent 便会尝试从 Server 端下载最新的配置和脚本。重启命令如下：

ambari-server restart
ambari-agent restart

第四步，登录 Ambari 的 WEB GUI，并检查 Yarn 的 Service Actions。这时候我们已经可以看到这个 GetMem 的命令了。由于 CustomComand 的 xml 段不支持 DisplayName 标签，所以我们没法通过配置更改这个名字。如果需求要更改这个名字，则不得不更改 GUI 的 JS 代码。
在这里插入图片描述
第五步，如果 GetMem 可以显示，就可以点击并执行该命令了。执行结果如下图显示。

Slave/Client Component 的自定义命令

本质上讲，为 Slave、Client 类型的 Component 增加自定义命令，与 Master 类型是没有什么区别的。唯一的区别就是在 GUI 上呈现的位置不一样。

Ambari 中 Service 之间的依赖关系

在 Hadoop 的生态圈中，一个完整的解决方案往往是需要几个 framework 共同的协作才能完成的。所以 Ambari 必须支持定义 Service 之间、Component 之间的依赖关系，以及 Component 状态和 Action 之间的依赖关系。

对于 Service 和 Component 之间的依赖关系，可以在 metainfo.xml 中定义。例如打开 YARN 的 metainfo.xml，就可以看到在 YARN 的 Service 段，有一个 requiredService 的字段。每个 Service 段底下，可以用这个字段来定义一个 Service 依赖哪些其他的 Service。YARN 所示配置如下，代表 YARN 需要 HDFS。

<requiredServices>
<service>HDFS</service>
</requiredServices>

对于 Component 来说，也有一个字段 dependencies。在这个字段定义了 Component 的依赖关系。我以 HBASE 的 HBASE_MASTER 配置为例。可以从示例代码中看到，HBASE_MASTER 需要 HDFS 的 HDFS_CLIENT，以及 ZOOKEEPER 的ZOOKEEPER_SERVER。

<component>
<name>HBASE_MASTER</name>
<displayName>HBase Master</displayName>
<category>MASTER</category>
<cardinality>1+</cardinality>
<versionAdvertised>true</versionAdvertised>
<dependencies>
<dependency>
<name>HDFS/HDFS_CLIENT</name>
<scope>host</scope>
<auto-deploy>
<enabled>true</enabled>
</auto-deploy>
</dependency>
<dependency>
<name>ZOOKEEPER/ZOOKEEPER_SERVER</name>
<scope>cluster</scope>
<auto-deploy>
<enabled>true</enabled>
<co-locate>HBASE/HBASE_MASTER</co-locate>
</auto-deploy>
</dependency>
</dependencies>
</component>

对于 Service 和 Component 的依赖，还是比较容易发现和理解的。但是对于 Component 状态以及 Action 之间的依赖关系，就比较难理解了。Ambari 的 Service 目录中，存在很多个叫做 role_command_order.json 的文件。在这个文件中定义了状态之间以及 Action 的依赖。在 resource 目录下的 role_command_order.json 定义着全局的的依赖。每个 Stack 目录下也会存在 role_command_order.json。相同的配置，Stack 下面的会覆盖全局的（overwrite）。对于不同的配置，Ambari 会拼接在一起（merge）。高版本的 Stack 会继承低版本的配置。相同的也会 overwrite，不同的也会 merge。