Hadoop-YARN 分布式安装

一、概述

  •  hadoop-3.1.1.tar.gz 
  • node1(主节点:ResourseManager)
  • node2(从节点:NodeManager)
  • node3(从节点:NodeManager) 

二、流程

  1. Client提交作业到ResourseManager。
  2. Resourse Manager随机挑选挑选一台空闲的机器创建App Mstr。
  3. App Mstr 获取切片清单向Resourse Manager申请资源Container,Container由Node Manager来管理, 所以Node Manager在DataNode节点上,一对一的关系。
  4. 返回Container给App Mstr后,由App Mstr调度作业在Container执行。同时Container会返回作业的状态和进度等信息给App Mstr。

三、安装(三台机器一样)

 1、配置hadoop-env.sh,添加

export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root

 2、配置mapred-site.xml,添加

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>yarn.app.mapreduce.am.env</name>
	<value>HADOOP_MAPRED_HOME=$HADOOP_HOME</value>
    </property>
    <property>
        <name>mapreduce.application.classpath</name>
        <value>$HADOOP_HOME/share/hadoop/mapreduce/*:$HADOOP_HOME/share/hadoop/mapreduce/lib/*</value>
    </property>
    # 提示Container killed on request. Exit code is 143
    # 'VIRTUAL' memory limit. Current usage: 35.1 MB of 1 GB physical memory used; 2.3 GB of 2.1 GB virtual memory used. Killing container.
    # 报错时:修改map和reduce的物理内存
    <property>
        <name>mapreduce.map.memory.mb</name>
        <value>200</value>
    </property>
    <property>
        <name>mapreduce.reduce.memory.mb</name>
        <value>200</value>
    </property>
</configuration>

3、 配置yarn-site.xml,添加

<configuration>
    # ResourseManager的节点主机名
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>node1</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
	<value>mapreduce_shuffle</value>
    </property>
    # 白名单
    <property>
        <name>yarn.nodemanager.env-whitelist</name>
      <value>JAVA_HOME,HADOOP_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
    </property>
</configuration>

4、进入到主节点启动yarn:

[root@node1 hadoop-3.1.1]# ./sbin/start-yarn.sh
Starting resourcemanager
上一次登录:五 3月  8 23:25:33 EST 2019pts/0 上
Starting nodemanagers
上一次登录:五 3月  8 23:33:34 EST 2019pts/0 上
[root@node1 hadoop-3.1.1]#


# resourse节点
[root@node1 hadoop-3.1.1]# jps
9461 Jps
9143 ResourceManager
6046 NameNode
[root@node1 hadoop-3.1.1]#

# node节点
[root@bogon hadoop]# jps
4720 NodeManager
5058 Jps
2851 DataNode
2925 SecondaryNameNode
[root@bogon hadoop]#

# node节点
[root@bogon hadoop]# jps
2896 DataNode
4953 Jps
4476 NodeManager
[root@bogon hadoop]#

5、访问:node1:8088

三、测试

./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.1.jar wordcount /data/wordcount.txt /data/test
  • 提交的作业jar文件:adoop-mapreduce-examples-3.1.1.jar
  • 提交的作业:wordcount,属于adoop-mapreduce-examples-3.1.1.jar里面的。
  • 输入参数:/data/wordcount.txt
  • 输出参数:/data/test,这个目录必须在hdfs上不存在。

### 回答1: Hadoop YARN (Yet Another Resource Negotiator) 是一个基于Hadoop的集群资源管理系统。Hadoop YARN Client是Hadoop YARN的一部分,它是用来与YARN ResourceManager通信的客户端工具。 Hadoop YARN Client的主要功能是向YARN ResourceManager提交应用程序并获取集群的资源来执行这些应用程序。当一个应用程序需要在Hadoop集群上运行时,开发人员可以使用Hadoop YARN Client来编写和提交应用程序,然后该客户端将应用程序的相关信息发送给YARN ResourceManager。这些应用程序可以是MapReduce程序,也可以是其他类型的应用程序,例如Spark、Flink等。 使用Hadoop YARN Client,开发人员可以指定应用程序所需的计算资源和内存等配置参数。此外,Hadoop YARN Client还可以跟踪应用程序的状态,并显示有关应用程序执行进度和状态的相关信息。如果发生错误或异常,开发人员可以使用Hadoop YARN Client来取消或终止应用程序的执行。 Hadoop YARN Client利用YARN ResourceManager的资源调度功能,将应用程序提交给ResourceManager后,ResourceManager将根据集群的资源情况来分配相应的资源给该应用程序。此外,Hadoop YARN Client还可以与NodeManager通信,以获取有关执行任务的节点的信息,并监视应用程序的进度。 总的来说,Hadoop YARN Client提供了一个方便的方式来提交和管理应用程序的执行,并与YARN ResourceManager和NodeManager进行通信,以获取资源和监视应用程序的状态。通过使用Hadoop YARN Client,开发人员可以更容易地在Hadoop集群上运行和管理各种类型的应用程序。 ### 回答2: Hadoop YARN客户端是Hadoop生态系统的一个关键组件,用于与YARN资源管理器进行通信,并提交、监控和管理MapReduce作业或其他分布式计算任务。YARN(Yet Another Resource Negotiator)是Hadoop的资源管理器,负责集群资源的分配和任务的调度。 Hadoop YARN客户端的主要功能包括作业的提交和监控。当用户想要运行一个MapReduce作业时,他们可以使用YARN客户端来提交该作业。YARN客户端将作业的执行所需要的资源需求和其他相关信息发送给YARN资源管理器。资源管理器根据集群可用的资源和调度策略来分配资源,并将作业的任务分配给相应的节点上的容器来执行。 同时,YARN客户端还可以监控作业的执行进度和状态。用户可以通过YARN客户端查询和获取作业的相关信息,如已完成的任务数、失败的任务数、运行时间等。这些信息对于实时监控作业的运行状况以及进行作业调优非常有帮助。 此外,YARN客户端还可以用于管理作业的生命周期。用户可以使用YARN客户端来杀死正在运行的作业或取消已提交但未开始执行的作业。这对于当用户不再需要某个作业时或出现意外情况需要断作业时非常有用。 总之,Hadoop YARN客户端是Hadoop生态系统负责与YARN资源管理器通信的关键组件。它提供了作业的提交、监控和管理的功能,帮助用户实现高效的分布式计算任务。 ### 回答3: Hadoop-YARN-Client是Hadoop生态系统的一个组件,它是Hadoop资源管理器(YARN)的客户端库。YARNHadoop的第二代资源管理系统,它的目的是为集群的各个工作负载提供资源调度和管理服务。 Hadoop-YARN-Client的作用是允许用户通过编程方式与YARN交互,以便向集群提交应用程序,并监控和管理它们的执行。通过Hadoop-YARN-Client,用户可以以编程方式与YARN的应用程序客户端接口(API)进行交互,完成下列任务: 1. 提交应用程序:用户可以使用Hadoop-YARN-Client将一个应用程序提交给YARN。提交应用程序时,需要指定应用程序的类型、优先级、所需资源等信息,并将应用程序的代码和依赖项打包成一个本地或分布式的Jar文件。 2. 监控应用程序:一旦应用程序被提交到YARN,用户可以使用Hadoop-YARN-Client监控应用程序的执行情况。用户可以查询应用程序的状态、进度和资源使用情况等信息。 3. 管理应用程序:用户可以使用Hadoop-YARN-Client管理应用程序的执行。例如,用户可以请求YARN增加或减少分配给应用程序的资源,或者终止应用程序的执行。 总之,Hadoop-YARN-Client是Hadoop生态系统YARN交互的关键组件之一。它为用户提供了一种便捷的方式来提交、监控和管理在YARN上执行的应用程序,让用户能够更好地利用集群资源和进行任务调度。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值