MapReduce＆YARN学习入门

最新推荐文章于 2024-04-15 11:25:34 发布

Exclusive_Sea

最新推荐文章于 2024-04-15 11:25:34 发布

阅读量623

点赞数 1

文章标签： mapreduce hadoop 大数据 hdfs

本文链接：https://blog.csdn.net/qq_60968494/article/details/130330407

版权

一、MapReduce概述

1.分布式计算框架- MapReduce

MapReduce是“分散->汇总”模式的分布式计算框架，可供开发人员开发相关程序进行分布式数据计算。

MapReduce提供了2个编程接口：

•Map

•Reduce

其中

•Map功能接口提供了“分散”的功能，由服务器分布式对数据进行处理

•Reduce功能接口提供了“汇总（聚合）”的功能，将分布式的处理结果汇总统计

用户如需使用MapReduce框架完成自定义需求的程序开发

只需要使用Java、Python等编程语言，实现Map Reduce功能接口即可。

•注：MapReduce尽管可以通过Java、Python等语言进行程序开发，但当下年代基本没人会写它的代码了，因为太过时了。尽管MapReduce很老了，但现在仍旧活跃在一线，主要是Apache Hive框架非常火，而Hive底层就是使用的MapReduce。所以对于MapReduce的代码开发，课程会简单扩展一下，但不会深入讲解，对MapReduce的底层原理会放在Hive之后，基于Hive做深入分析。

2.MapReduce执行原理

假定有4台服务器用以执行MapReduce任务

可以3台服务器执行Map，1台服务器执行Reduce
在这里插入图片描述

3.MapReduce的运行机制

•将要执行的需求，分解为多个Map Task和Reduce Task

•将Map Task 和 Reduce Task分配到对应的服务器去执行

二、YARN概述

1.资源调度

**资源：**服务器硬件资源，如：CPU、内存、硬盘、网络等

**资源调度：**管控服务器硬件资源，提供更好的利用率

**分布式资源调度：**管控整个分布式服务器集群的全部资源，整合进行统一调度

2.YARN的资源调度

YARN是Hadoop中用来进行集群的资源（内存、CPU等）调度的一个组件，可以将资源统一管控进行分配进而提高资源的利用率。
在这里插入图片描述
这就是 Hadoop YARN框架的作用，调度整个服务器集群的资源统一管理

YARN 管控整个集群的资源进行调度，那么应用程序在运行时，就是在YARN的监管（管理）下去运行的。

这就像：全部资源都是公司（YARN）的，由公司分配给个人（具体的程序）去使用。
在这里插入图片描述

3.MapReduce和YARN的关系

•YARN用来调度资源给MapReduce分配和管理运行资源

•所以，MapReduce需要YARN才能执行（普遍情况）

三、YARN架构

1.YARN核心架构

•HDFS，主从架构，有2个角色

•主（Master）角色：NameNode

•从（Slave）角色：DataNode
在这里插入图片描述
•YARN，主从架构，有2个角色

•主（Master）角色：ResourceManager

•从（Slave）角色：NodeManager
在这里插入图片描述
•ResourceManager：整个集群的资源调度者，负责协调调度各个程序所需的资源。

•NodeManager：单个服务器的资源调度者，负责调度单个服务器上的资源提供给应用程序使用。

在这里插入图片描述

1.1.YARN容器

在这里插入图片描述

2.YARN辅助架构

•代理服务器(ProxyServer)：Web Application Proxy Web应用程序代理

•历史服务器(JobHistoryServer)：应用程序历史信息记录服务

2.1Web应用代理（Web Application Proxy）

代理服务器，即Web应用代理是 YARN 的一部分。默认情况下，它将作为资源管理器(RM)的一部分运行，但是可以配置为在独立模式下运行。使用代理的原因是为了减少通过 YARN 进行基于网络的攻击的可能性。

这是因为， YARN在运行时会提供一个WEB UI站点（同HDFS的WEB UI站点一样）可供用户在浏览器内查看YARN的运行信息
在这里插入图片描述
对外提供WEB 站点会有安全性问题，而代理服务器的功能就是最大限度保障对WEB UI的访问是安全的。比如：

•警告用户正在访问一个不受信任的站点

•剥离用户访问的Cookie等

开启代理服务器，可以提高YARN在开放网络中的安全性（但不是绝对安全只能是辅助提高一些）

代理服务器默认集成在了ResourceManager中

也可以将其分离出来单独启动，如果要分离代理服务器

①在yarn-site.xml中配置 yarn.web-proxy.address 参数即可（部署环节会使用到）

<property>
        <name>yarn.web-proxy.address</name>
        <value>master:8089</value>
		<description>代理服务器主机和端口</description>
</property>

2.2JobHistoryServer历史服务器

记录历史运行的程序的信息以及产生的日志并提供WEB UI站点供用户使用浏览器查看。

在这里插入图片描述

2.2.1JobHistoryServer历史服务器功能

•提供WEB UI站点，供用户在浏览器上查看程序日志

•可以保留历史数据，随时查看历史运行程序信息

2.2.2JobHistoryServer配置

•开启日志聚合，即从容器中抓取日志到HDFS集中存储

<property>
        <name>yarn.log-aggregation-enable</name>
        <value>true</value>
		<description>开启日志聚合</description>
</property>
<property>
        <name>yarn.nodemanager.remote-app-log-dir</name>
        <value>/tmp/logs</value>
		<description>程序日志HDFS的存储路径</description>
</property>

•配置历史服务器端口和主机

<property>

        <name>mapreduce.jobhistory.webapp.address</name>
        <value>master:19888</value>
		<description>历史服务器web端口为master:19888</description>
</property>

<property>

        <name>mapreduce.jobhistory.webapp.address</name>
        <value>master:19888</value>
		<description>历史服务器web端口为master:19888</description>
</property>

3.MapReduce的配置＆YARN的部署

3.1部署说明

在这里插入图片描述

3.2集群规划

在这里插入图片描述

3.3MapReduce配置文件

在 $HADOOP_HOME/etc/hadoop 文件夹内，修改：

•mapred-env.sh文件，添加如下环境变量

#设置JDK路径
export JAVA_HOME=/opt/jdk/jdk1.8.0_212
#设置JobHistoryServer进程内存为1G
export HADOOP_JOB_HISTORYSERVER_HEAPSIZE=1000
#设置日志级别为INFO
export HADOOP_MAPRED_ROOT_LOGGER=INFO,RFA

•mapred-site.xml文件，添加如下配置信息

<configuration>
<property>

        <name>mapreduce.framework.name</name>
        <value>yarn</value>
		<description>MapReduce的运行框架设置为YARN</description>
</property>
<property>

        <name>mapreduce.jobhistory.address</name>
        <value>master:10020</value>
		<description>历史服务器通讯端口为master:10020</description>
</property>
<property>

        <name>mapreduce.jobhistory.webapp.address</name>
        <value>master:19888</value>
		<description>历史服务器web端口为master:19888</description>
</property>
<property>

        <name>mapreduce.jobhistory.intermediate-done-dir</name>
        <value>/data/mr-history/tmp</value>
		<description>历史信息在HDFS的记录临时路径</description>
</property>
<property>

        <name>mapreduce.jobhistory.done-dir</name>
        <value>/data/mr-history/done</value>
    	<description>历史信息在HDFS的记录路径</description>
</property>
<property>

        <name>yarn.app.mapreduce.am.env</name>
        <value>HADOOP_MAPRED_HOME=$HADOOP_HOME</value>
		<description>MapReduce HOME设置为HADOOP_HOME</description>
</property>
<property>

        <name>mapreduce.map.env</name>
        <value>HADOOP_MAPRED_HOME=$HADOOP_HOME</value>
		<description>MapReduce HOME设置为HADOOP_HOME</description>
</property>
<property>

        <name>mapreduce.reduce.env</name>
        <value>HADOOP_MAPRED_HOME=$HADOOP_HOME</value>
		<description>MapReduce HOME设置为HADOOP_HOME</description>
</property>

</configuration>

3.4YARN配置文件

在 $HADOOP_HOME/etc/hadoop 文件夹内，修改：

•yarn-env.sh文件，添加如下4行环境变量内容：

#设置JDK路径的环境变量
export JAVA_HOME=/opt/jdk/jdk1.8.0_212
#设置HADOOP_HOME的环境变量
export HADOOP_HOME=/opt/hadoop/hadoop-3.3.5
#设置配置文件路径的环境变量
export HADOOP_CONF_DIR=/opt/hadoop/hadoop-3.3.5/etc/hadoop
#设置日志文件路径的环境变量
export HADOOP_LOG_DIR=/opt/hadoop/hadoop-3.3.5/logs

•yarn-site.xml文件，配置如图属性

<property>
        <name>yarn.resourceemanager.hostname</name>
        <value>master</value>
    	<description>ResourceManager设置在master节点</description>
</property>
<property>
        <name>yarn.nodemanager.local-dirs</name>
        <value>/data/nm-local</value>
		<description>NodeManager中间数据本地存储路径</description>
</property>
<property>
        <name>yarn.nodemanager.log-dirs</name>
        <value>/data/nm-log</value>
		<description>NodeManager数据日志本地存储路径</description>
</property>
<property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
		<description>为MapReduce程序开启Shuffle服务</description>
</property>
<property>
        <name>yarn.resourcemanager.address</name>
        <value>master:8032</value>
</property>
<property>
        <name>yarn.resourcemanager.scheduler.address</name>
        <value>master:8030</value>
</property>
<property>
        <name>yarn.resourcemanager.resource-tracker.address</name>
        <value>master:8031</value>
</property>
<property>
        <name>yarn.resourcemanager.admin.address</name>
        <value>master:18141</value>
</property>
<property>
        <name>yarn.resourcemanager.webapp.address</name>
        <value>master:18088</value>
</property>
<property>
        <name>yarn.log.server.url</name>
        <value>http://master:19888/jobhistory/logs</value>
		<description>历史服务器URL</description>
</property>
<property>
        <name>yarn.web-proxy.address</name>
        <value>master:8089</value>
		<description>代理服务器主机和端口</description>
</property>
<property>
        <name>yarn.log-aggregation-enable</name>
        <value>true</value>
		<description>开启日志聚合</description>
</property>
<property>
        <name>yarn.nodemanager.remote-app-log-dir</name>
        <value>/tmp/logs</value>
		<description>程序日志HDFS的存储路径</description>
</property>
<property>
        <name>yarn.resourcemanager.scheduler.class</name>
        <value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler</value>
		<description>选择公平调度器</description>
</property>

但是实际操作时发现如果调度器设置成选择公平调度器的话，在使用wordcount示例程序时会报错org.apache.hadoop.yarn.exceptions.YarnException: Failed to submit application_1680768899138_0002 to YARN : root is not a leaf queue，此时需要在yarn-site中使用如下配置将调度器改为容量调度器：

<property>
	<description>容量调度器</description>
    <name>yarn.resourcemanager.scheduler.class</name>
<value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler</value>
</property>

3.5分发配置文件

MapReduce和YARN的配置文件修改好后，需要分发到其它的服务器节点中。

scp mapred-env.sh mapred=site.xml yarn-env.sh yarn-site.xml node0:`pwd`/
scp mapred-env.sh mapred=site.xml yarn-env.sh yarn-site.xml node1:`pwd`/

在这里插入图片描述
当这些步骤做完后报错：
ERROR: Attempting to operate on yarn proxyserver as root
ERROR: but there is no YARN_PROXYSERVER_USER defined. Aborting operation.

可以在cd到/opt/hadoop/hadoop-3.3.5/sbin修改start-yarn.sh和stop-yarn.sh，在两个页面的开头加上YARN_PROXYSERVER_USER=root
在这里插入图片描述
启动成功后界面如下：

3.6集群启动命令介绍

常用的进程启动命令如下：

•一键启动YARN集群： $HADOOP_HOME/sbin/start-yarn.sh

•会基于yarn-site.xml中配置的yarn.resourcemanager.hostname来决定在哪台机器上启动resourcemanager

•会基于workers文件配置的主机启动NodeManager

•一键停止YARN集群： $HADOOP_HOME/sbin/stop-yarn.sh

•在当前机器，单独启动或停止进程

•$HADOOP_HOME/bin/yarn --daemon start|stop resourcemanager|nodemanager|proxyserver

•start和stop决定启动和停止

•可控制resourcemanager、nodemanager、proxyserver三种进程

•历史服务器启动和停止

•$HADOOP_HOME/bin/mapred --daemon start|stop historyserver

四、MapReduce＆YARN初体验

1.集群启停命令

1.1一键启动脚本

启动：

$HADOOP_HOME/sbin/start-yarn.sh

•从yarn-site.xml中读取配置，确定ResourceManager所在机器，并启动它

•读取workers文件，确定机器，启动全部的NodeManager

•在当前机器启动ProxyServer（代理服务器）

关闭

$HADOOP_HOME/sbin/stop-yarn.sh

1.2单进程启停

除了一键启停外，也可以单独控制进程的启停。

•$HADOOP_HOME/bin/yarn，此程序也可以用以单独控制所在机器的进程的启停

用法：yarn --daemon (start|stop) (resourcemanager|nodemanager|proxyserver)

•$HADOOP_HOME/bin/mapred，此程序也可以用以单独控制所在机器的历史服务器的启停

用法：mapred --daemon (start|stop) historyserver

2.提交MapReduce任务到YARN执行

YARN作为资源调度管控框架，其本身提供资源供许多程序运行，常见的有：

•MapReduce程序

•Spark程序

•Flink程序

Hadoop官方内置了一些预置的MapReduce程序代码，我们无需编程，只需要通过命令即可使用。

常用的有2个MapReduce内置程序：

•wordcount：单词计数程序。

统计指定文件内各个单词出现的次数

•pi：求圆周率

通过蒙特卡罗算法（统计模拟法）求圆周率

•这些内置的示例MapReduce程序代码，都在：

$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar 这个文件内。

•可以通过 hadoop jar 命令来运行它，提交MapReduce程序到YARN中。

语法： hadoop jar 程序文件 java类名 [程序参数] ... [程序参数]

2.1提交wordcount示例程序

单词计数示例程序的功能很简单：

•给定数据输入的路径（HDFS）、给定结果输出的路径（HDFS）

•将输入路径内的数据中的单词进行计数，将结果写到输出路径

我们可以准备一份数据文件，并上传到HDFS中。

参照黑马的教程，在Linux中创建一份如下的txt文件命名为words.txt并上传到HDFS中

text文件：

itheima itcast itheima itcast
hadoop hdfs hadoop hdfs
hadoop mapreduce hadoop yarn
itheima hadoop itcast hadoop
itheima itcast hadoop yarn mapreduce

将上述文件上传到HDFS中：

#hdfs中创建一个input文件夹用于放入输入的文件，创建一个output文件夹用于存放输出的文件
hadoop fs -mkdir -p /input/wordcount
hadoop fs -mkdir /output
hadoop fs -put /opt/data/words.txt /input/wordcount/

执行如下命令，提交示例MapReduce程序WordCount到YARN中执行：

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.5.jar wordcount hdfs://master:9002/input/wordcount/ hdfs://master:9002/output/wc1
#hadoop jar 程序文件 java类名 [程序参数] ... [程序参数]

注意：

•参数wordcount，表示运行jar包中的单词计数程序（Java Class）

•参数1是数据输入路径（hdfs://master:9002/input/wordcount/)

•参数2是结果输出路径(hdfs://master:9002/output/wc1)，需要确保输出的文件夹不存在

如果不知道路径，可以在core-site.xml中的fs.defaultFS中读取：

<property>
          <name>fs.defaultFS</name>
          <value>hdfs://master:9002</value>
</property>

•在执行前要确保主机节点除JPS外要有如下的6个节点：
在这里插入图片描述

运行结束后输入hadoop fs -ls /output/wc1可以看到生成两个文件，第一个文件名代表运行成功，第二个文件为运行结果

输入hadoop fs -cat /output/wc1/part-r-00000可以看到结果：

也可在web页查看状态(http://master:8088/cluster)：
在这里插入图片描述
执行完成后，可以借助历史服务器查看到程序的历史运行信息

ps：如果没有启动历史服务器和代理服务器，此操作无法完成（页面信息由历史服务器提供，鼠标点击跳转到新网页功能由代理服务器提供）
在这里插入图片描述

2.1.1报错记录

2.1.1.1 org.apache.hadoop.yarn.exceptions.YarnException: Failed to submit application_1680768899138_0002 to YARN : root is not a leaf queue

**解决方法：**在yarn-site中将调度器改为容量调度器并重启dfs和yarn，代码如下：

<property>
	<description>容量调度器</description>
    <name>yarn.resourcemanager.scheduler.class</name>
<value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler</value>
</property>

2.1.1.2 org.apache.hadoop.hdfs.BlockMissingException: Could not obtain block: BP-2110899144-100.66.8.128-1682069026390:blk_1073741825_1001 file=/input/words.txt No live nodes contain current block Block locations: Dead nodes:

在这里插入图片描述
**解决办法1：**查看节点是否掉了，如果掉了重启Hadoop或者单独启动掉了的节点

**解决办法2：**删除受损block

hadoop fsck /你的path  将报错中file后面的路径粘贴过来即可

#运行后会显示受损块文件的相关信息
/你的path: MISSING 1 blocks of total size 69 B.Status: CORRUPT
 Total size:	69 B
 Total dirs:	0
 Total files:	1
 Total symlinks:		0
 Total blocks (validated):	1 (avg. block size 69 B)
  ********************************
  CORRUPT FILES:	1
  MISSING BLOCKS:	1
  MISSING SIZE:		69 B
  CORRUPT BLOCKS: 	1
  ********************************
 Minimally replicated blocks:	0 (0.0 %)
 Over-replicated blocks:	0 (0.0 %)
 Under-replicated blocks:	0 (0.0 %)
 Mis-replicated blocks:		1 (100.0 %)
 Default replication factor:	3
 Average block replication:	0.0
 Corrupt blocks:		1
 Missing replicas:		0
 Number of data-nodes:		31
 Number of racks:		2
FSCK ended at Thu Apr 14 13:37:15 CST 2022 in 25 milliseconds


The filesystem under path '/你的path' is CORRUPT    
#CORRUPT说明文件受损

有可能当前路径下的受损block不止一个

hadoop fsck /path -list-corruptfileblocks  
#运行后可以输出当前路径下所有的受损文件块

删除损坏的block

hadoop fsck /path -delete

**解决办法3：**删除txt文件重新上传（我是用这个方法解决的）

2.1.2查看运行日志

点击logs链接，可以查看到详细的运行日志信息。
在这里插入图片描述

此功能基于：

①配置文件yarn-site.xml中配置了日志聚合功能，并设置了历史服务器

<property>
        <name>yarn.log.server.url</name>
        <value>http://master:19888/jobhistory/logs</value>
		<description>历史服务器URL</description>
</property>
<property>
        <name>yarn.log-aggregation-enable</name>
        <value>true</value>
		<description>开启日志聚合</description>
</property>

②启动了代理服务器和历史服务器

③历史服务器进程会将日志收集整理，形成可以查看的网页内容供我们查看。

所以，如果发现无法查看程序运行历史以及无法查看程序运行日志信息，请检查上述1、2、3是否都正确设置。

2.2.提交求圆周率示例程序

可以执行如下命令，使用蒙特卡罗算法模拟计算求PI（圆周率）

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.5.jar pi 3 1000

•参数pi表示要运行的Java类，这里表示运行jar包中的求pi程序

•参数3，表示设置几个map任务

•参数1000，表示模拟求PI的样本数（越大求的PI越准确，但是速度越慢）
在这里插入图片描述

最后结果为3.141333333333333333333，因为样本数1000太小了所以不够精准，增加样本数可以增加准确度但运行时间也会增加

Exclusive_Sea

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
3
评论
MapReduce＆YARN学习入门

MapReduce是“分散->汇总”模式的分布式计算框架，可供开发人员开发相关程序进行分布式数据计算。MapReduce提供了2个编程接口：•Map•Reduce其中•Map功能接口提供了“分散”的功能，由服务器分布式对数据进行处理•Reduce功能接口提供了“汇总（聚合）”的功能，将分布式的处理结果汇总统计用户如需使用MapReduce框架完成自定义需求的程序开发只需要使用Java、Python等编程语言，实现Map Reduce功能接口即可。
复制链接

扫一扫