【大数据】5：MapReduce与YARN

好问者

已于 2024-08-09 22:27:31 修改

阅读量709

点赞数 23

文章标签：大数据 mapreduce

于 2024-08-09 22:26:50 首次发布

本文链接：https://blog.csdn.net/2301_76936713/article/details/141071633

版权

Web应用代理(Web Application Proxy)

JobHistoryServer历史服务器

MapReduce概述

分布式计算框架 - MapReduce

MapReduce是“分散->汇总”模式的分布式计算框架，可供开发人员开发相关程序进行分布式数据计算。

MapReduce提供了2个编程接口：

Map

Reduce

其中 Map功能接口提供了“分散”的功能，由服务器分布式对数据进行处理

Reduce功能接口提供了“汇总（聚合）”的功能，将分布式的处理结果汇总统计

用户如需使用MapReduce框架完成自定义需求的程序开发

只需要使用Java、Python等编程语言，实现Map Reduce功能接口即可。

MapReduce执行原理

MapReduce的运行机制

将要执行的需求，分解为多个Map Task和Reduce Task，将Map Task 和 Reduce Task分配到对应的服务器去执行。

MapReduce是基于YARN运行的，即没有YARN”无法”运行MapReduce程序。YARN 即Hadoop内提供的进行分布式资源调度的组件。

YARN的概述

YARN的资源调度

资源调度：

资源：服务器硬件资源，如：CPU、内存、硬盘、网络等

资源调度：管控服务器硬件资源，提供更好的利用率

分布式资源调度：管控整个分布式服务器集群的全部资源，整合进行统一调度。

对于资源的利用，有规划、有管理的调度资源使用，是效率最高的方式，在程序中亦是如此

程序的资源调度：

服务器会运行多个程序，每个程序对资源（CPU内存等）的使用都不同

程序没有节省的概念，有多少就会用多少。

所以，为了提高资源利用率，进行调度就非常有必要了。

这就是 Hadoop YARN框架的作用调度整个服务器集群的资源统一管理

YARN的资源调度：

YARN 管控整个集群的资源进行调度，那么应用程序在运行时，就是在YARN的监管（管理）下去运行的。这就像：全部资源都是公司（YARN）的，由公司分配给个人（具体的程序）去使用。

比如，一个具体的MapReduce程序。

我们知道， MapReduce程序会将任务分解为若干个Map任务和Reduce任务。

假设，有一个MapReduce程序，分解了3个Map任务，和1个Reduce任务，那么如何在YARN的监管（管理）下运行呢？

YARN架构

HDFS，主从架构，有2个角色

主（Master）角色：NameNode

从（Slave）角色：DataNode

YARN，主从架构，有2个角色

主（Master）角色：ResourceManager

从（Slave）角色：NodeManager

ResourceManager：整个集群的资源调度者，负责协调调度各个程序所需的资源。 NodeManager：单个服务器的资源调度者，负责调度单个服务器上的资源提供给应用程序使用。

YARN容器

YARN辅助角色

YARN的架构中除了核心角色，即：

ResourceManager：集群资源总管家

NodeManager：单机资源管家

还可以搭配2个辅助角色使得YARN集群运行更加稳定

代理服务器(ProxyServer)：Web Application Proxy Web应用程序代理

历史服务器(JobHistoryServer)：应用程序历史信息记录服务

Web应用代理(Web Application Proxy)

代理服务器，即Web应用代理是 YARN 的一部分。默认情况下，它将作为资源管理器(RM)的一部分运行，但是可以配置为在独立模式下运行。使用代理的原因是为了减少通过 YARN 进行基于网络的攻击的可能性。

这是因为， YARN在运行时会提供一个WEB UI站点（同HDFS的WEB UI站点一样）可供用户在浏览器内查看YARN的运行信息

对外提供WEB 站点会有安全性问题，而代理服务器的功能就是最大限度保障对WEB UI的访问是安全的。比如：

警告用户正在访问一个不受信任的站点

剥离用户访问的Cookie等

开启代理服务器，可以提高YARN在开放网络中的安全性（但不是绝对安全只能是辅助提高一些）

代理服务器默认集成在了ResourceManager中

也可以将其分离出来单独启动，如果要分离代理服务器

1. 在yarn-site.xml中配置 yarn.web-proxy.address 参数即可（部署环节会使用到）

2. 并通过命令启动它即可 $HADOOP_YARN_HOME/sbin/yarn-daemon.sh start proxyserver（部署环节会使用到）

JobHistoryServer历史服务器

历史服务器的功能很简单：记录历史运行的程序的信息以及产生的日志并提供WEB UI站点供用户使用浏览器查看。

程序看日志不是日常操作吗？为何需要一个单独的历史服务器？回答这个问题要从YARN的运行机制说起。

统一收集到HDFS，由历史服务器托管为WEB UI供用户在浏览器统一查看。

JobHistoryServer历史服务器功能：

1.提供WEB UI站点，供用户在浏览器上查看程序日志

2.可以保留历史数据，随时查看历史运行程序信息

JobHistoryServer需要配置：

1.开启日志聚合，即从容器中抓取日志到HDFS集中存储

2.配置历史服务器端口和主机

MapReduce & YARN 的部署

部署说明

Hadoop HDFS分布式文件系统，我们会启动：

NameNode进程作为管理节点

DataNode进程作为工作节点

SecondaryNamenode作为辅助

同理，Hadoop YARN分布式资源调度，会启动：

ResourceManager进程作为管理节点

NodeManager进程作为工作节点

ProxyServer、JobHistoryServer这两个辅助节点

那么，MapReduce呢？ MapReduce运行在YARN容器内，无需启动独立进程

所以关于MapReduce和YARN的部署，其实就是2件事情：

1.关于MapReduce：修改相关配置文件，但是没有进程可以启动

2.关于YARN：修改相关配置文件，并启动ResourceManager、NodeManager进程以及辅助进程（代理服务器、历史服务器）

通过表格进行汇总：

集群规划

有3台服务器，其中node1配置较高

集群规划如下：

MapReduce配置文件

在 $HADOOP_HOME/etc/hadoop 文件夹内，修改： mapred-env.sh文件，添加如下环境变量

mapred-env.sh文件，添加如下环境变量

#设置JDK路径
export JAVA_HOME=/export/server/jdk
#设置JobHistoryServer进程内存为1G
export HAD00P_J0B_HISTORYSERVER_HEAPSIZE=1000
#设置日志级别为INFO
export HADO0P_MAPRED,R0OT_LOGGER=INFO,RFA

mapred-site.xml文件，添加如下配置信息

<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
    <description></description>
  </property>

  <property>
    <name>mapreduce.jobhistory.address</name>
    <value>node1:10020</value>
    <description></description>
  </property>


  <property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>node1:19888</value>
    <description></description>
  </property>


  <property>
    <name>mapreduce.jobhistory.intermediate-done-dir</name>
    <value>/data/mr-history/tmp</value>
    <description></description>
  </property>


  <property>
    <name>mapreduce.jobhistory.done-dir</name>
    <value>/data/mr-history/done</value>
    <description></description>
  </property>
<property>
  <name>yarn.app.mapreduce.am.env</name>
  <value>HADOOP_MAPRED_HOME=$HADOOP_HOME</value>
</property>
<property>
  <name>mapreduce.map.env</name>
  <value>HADOOP_MAPRED_HOME=$HADOOP_HOME</value>
</property>
<property>
  <name>mapreduce.reduce.env</name>
  <value>HADOOP_MAPRED_HOME=$HADOOP_HOME</value>
</property>
</configuration>

在 $HADOOP_HOME/etc/hadoop 文件夹内，修改： yarn-env.sh文件，添加如下4行环境变量内容：

export JAVA_HOME=/export/server/jdk
export HADOOP_HOME=/export/server/hadoop
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export HADOOP_LOG_DIR=$HADOOP_HOME/logs

yarn-site.xml文件，配置如图属性

<configuration>

<!-- Site specific YARN configuration properties -->
<property>
    <name>yarn.log.server.url</name>
    <value>http://node1:19888/jobhistory/logs</value>
    <description></description>
</property>

  <property>
    <name>yarn.web-proxy.address</name>
    <value>node1:8089</value>
    <description>proxy server hostname and port</description>
  </property>


  <property>
    <name>yarn.log-aggregation-enable</name>
    <value>true</value>
    <description>Configuration to enable or disable log aggregation</description>
  </property>

  <property>
    <name>yarn.nodemanager.remote-app-log-dir</name>
    <value>/tmp/logs</value>
    <description>Configuration to enable or disable log aggregation</description>
  </property>


<!-- Site specific YARN configuration properties -->
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>node1</value>
    <description></description>
  </property>

  <property>
    <name>yarn.resourcemanager.scheduler.class</name>
    <value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler</value>
    <description></description>
  </property>

  <property>
    <name>yarn.nodemanager.local-dirs</name>
    <value>/data/nm-local</value>
    <description>Comma-separated list of paths on the local filesystem where intermediate data is written.</description>
  </property>


  <property>
    <name>yarn.nodemanager.log-dirs</name>
    <value>/data/nm-log</value>
    <description>Comma-separated list of paths on the local filesystem where logs are written.</description>
  </property>


  <property>
    <name>yarn.nodemanager.log.retain-seconds</name>
    <value>10800</value>
    <description>Default time (in seconds) to retain log files on the NodeManager Only applicable if log-aggregation is disabled.</description>
  </property>



  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
    <description>Shuffle service that needs to be set for Map Reduce applications.</description>
  </property>
</configuration>

分发配置文件

MapReduce和YARN的配置文件修改好后，需要分发到其它的服务器节点中。

scp mapred-env.sh mapred-site.xml yarn-env.sh yarn-site.xml node2:'pwd'/
scp mapred-env.sh mapred-site.xml yarn-env.sh yarn-site.xml node3:'pwd'/

分发完成配置文件，就可以启动YARN的相关进程啦。

集群启动命令介绍

常用的进程启动命令如下：

一键启动YARN集群： $HADOOP_HOME/sbin/start-yarn.sh

会基于yarn-site.xml中配置的yarn.resourcemanager.hostname来决定在哪台机器上启动resourcemanager

会基于workers文件配置的主机启动NodeManager

一键停止YARN集群： $HADOOP_HOME/sbin/stop-yarn.sh

在当前机器，单独启动或停止进程

$HADOOP_HOME/bin/yarn --daemon start|stop resourcemanager|nodemanager|proxyserver

start和stop决定启动和停止

可控制resourcemanager、nodemanager、proxyserver三种进程

历史服务器启动和停止

$HADOOP_HOME/bin/mapred --daemon start|stop historyserver

开始启动YARN集群

在node1服务器，以hadoop用户执行

1.首先执行：$HADOOP_HOME/sbin/start-yarn.sh，一键启动所需的:ResourceManager NodeManager ProxyServer（代理服务器）

2.其次执行：$HADOOP_HOME/bin/mapred --daemon start historyserver 启动: HistoryServer（历史服务器）

查看YARN的WEB UI页面

打开 http://node1:8088 即可看到YARN集群的监控页面（ResourceManager的WEB UI）

在最后，可以给虚拟机打上快照，保存安装状态

好问者

关注

23
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫