linux下 tcp接受数据不全_大数据之Linux下搭建YARN资源管理器（Hadoop第三篇）

最新推荐文章于 2023-10-13 16:40:06 发布

weixin_39994949

最新推荐文章于 2023-10-13 16:40:06 发布

阅读量137

点赞数

文章标签： linux下 tcp接受数据不全启动hadoop没有resourcemanager

本文依然继续介绍Hadoop组件，承接另外一篇文章《大数据之Linux下搭建HDFS分布式文件系统》，所以建议大家先去看HDFS的安装配置，再来看此篇(拆分多篇文章的原因是文章太长，截图太多，会很卡)。后续会介绍Hive，请关注，持续分享JAVA，前端，大数据等技术文章

一、介绍

Apache Hadoop YARN (Yet Another Resource Negotiator，另一种资源协调者)是一种新的 Hadoop 资源管理器，它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处

YARN的基本思想是将JobTracker的两个主要功能(资源管理和作业调度/监控)分离，主要方法是创建一个全局的ResourceManager(RM)和若干个针对应用程序的ApplicationMaster(AM)。这里的应用程序是指传统的MapReduce作业或作业的DAG(有向无环图)。

YARN 分层结构的本质是 ResourceManager。这个实体控制整个集群并管理应用程序向基础计算资源的分配。ResourceManager 将各个资源部分(计算、内存、带宽等)精心安排给基础 NodeManager(YARN 的每节点代理)。ResourceManager 还与 ApplicationMaster 一起分配资源，与 NodeManager 一起启动和监视它们的基础应用程序。在此上下文中，ApplicationMaster 承担了以前的 TaskTracker 的一些角色，ResourceManager 承担了 JobTracker 的角色。

ApplicationMaster 管理一个在 YARN 内运行的应用程序的每个实例。ApplicationMaster 负责协调来自 ResourceManager 的资源，并通过 NodeManager 监视容器的执行和资源使用(CPU、内存等的资源分配)。请注意，尽管目前的资源更加传统(CPU 核心、内存)，但未来会带来基于手头任务的新资源类型(比如图形处理单元或专用处理设备)。从 YARN 角度讲，ApplicationMaster 是用户代码，因此存在潜在的安全问题。YARN 假设 ApplicationMaster 存在错误或者甚至是恶意的，因此将它们当作无特权的代码对待。

NodeManager 管理一个 YARN 集群中的每个节点。NodeManager 提供针对集群中每个节点的服务，从监督对一个容器的终生管理到监视资源和跟踪节点健康。MRv1 通过插槽管理 Map 和 Reduce 任务的执行，而 NodeManager 管理抽象容器，这些容器代表着可供一个特定应用程序使用的针对每个节点的资源。YARN 继续使用 HDFS 层。它的主要 NameNode 用于元数据服务，而 DataNode 用于分散在一个集群中的复制存储服务。

要使用一个 YARN 集群，首先需要来自包含一个应用程序的客户的请求。ResourceManager 协商一个容器的必要资源，启动一个 ApplicationMaster 来表示已提交的应用程序。通过使用一个资源请求协议，ApplicationMaster 协商每个节点上供应用程序使用的资源容器。执行应用程序时，ApplicationMaster 监视容器直到完成。当应用程序完成时，ApplicationMaster 从 ResourceManager 注销其容器，执行周期就完成了。

从上述介绍及图所知yarn的作用是，由ResourceManager控制整个集群并管理应用程序，每个客户端通过ResourceManager访问节点，接下来介绍配置

二、配置yarn

1：进入hadoop目录，执行下面的命令，打开并编辑yarn-site.xml文档

vim etc/hadoop/yarn-site.xml

在yarn-site.xml文档的configuration标签内添加以下配置，配置完保存并退出

yarn.nodemanager.aux-servicesmapreduce_shuffle

2：配置mapred-site.xml

vim etc/hadoop/mapred-site.xml

在mapre-site.xml文档的configuration标签内添加以下配置，配置完保存并退出

mapreduce.framework.nameyarn

三、启动yarn

在启动yarn前，我们先执行jps，看下启动前的进程，如下图，NameNode和DataNode是HDFS进程，不知的请查看《大数据之Linux下搭建HDFS分布式文件系统》文章介绍

在hadoop目录下，执行以下yarn启动命令，启动完yarn后，我们再执行jps看下，是否多出了两个进程(ResourceManager和NodeManager)有这两个说明启动成功。

./sbin/start-yarn.sh

四、测试yarn

测试前，我们先打开浏览器，在最后面一列中，并没有任务数据

先进入mapreduce目录，然后执行测试命令

#进入mapreduce目录cd ./share/hadoop/mapreduce#在mapreduce目录下执行下面命令hadoop jar hadoop-mapreduce-examples-2.6.0-cdh5.15.1.jar pi 3 4

命令执行截图：

再次进入浏览器查看 IP:8088 (http://ip:8088/cluster)

到此Hadoop组件yarn配置完了，看本篇一定要结合文章《大数据之Linux下搭建HDFS分布式文件系统》一起观看，后续我会介绍Hive组件。

weixin_39994949

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
linux下 tcp接受数据不全_大数据之Linux下搭建YARN资源管理器（Hadoop第三篇）

本文依然继续介绍Hadoop组件，承接另外一篇文章《大数据之Linux下搭建HDFS分布式文件系统》，所以建议大家先去看HDFS的安装配置，再来看此篇(拆分多篇文章的原因是文章太长，截图太多，会很卡)。后续会介绍Hive，请关注，持续分享JAVA，前端，大数据等技术文章一、介绍Apache Hadoop YARN (Yet Another Resource Negotiator，另一种资源协调者)...
复制链接

扫一扫