第三章_分布式计算和资源调度（黑马版）

最新推荐文章于 2024-08-09 15:39:59 发布

雨天的恶意

最新推荐文章于 2024-08-09 15:39:59 发布

阅读量899

点赞数 12

分类专栏： Hadoop学习入门文章标签： hadoop

本文链接：https://blog.csdn.net/m0_62238141/article/details/139320957

版权

Hadoop学习入门专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1.分布式计算概述

学习目标

1.了解什么是计算

2.了解什么是分布式计算

什么是计算、分布式计算？

计算：对数据进行处理，使用统计分析等手段得到需要的结果
分布式计算：多台服务器协同工作，共同完成一个计算任务

分布式计算常见的2种工作模式

分散->汇总（MapReduce就是这种模式）
中心调度->步骤执行（大数据体系的Spark、Flink等是这种模式）

2.MapReduce概述

学习目标

1.掌握MapReduce和Hadoop的关系

2.了解MapReduce的作用

什么是MapReduce

MapReduce是Hadoop中的分布式计算组件
MapReduce可以以分散->汇总（聚合）模式执行分布式计算任务

MapReduce的主要编程接口

map接口，主要提供“分散”功能，由服务器分布式处理数据
reduce接口，主要提供“汇总”功能，进行数据汇总统计得到结果
MapReduce可供Java、Python等语言开发计算程序

注：MapReduce尽管可以通过Java、Python等语言进行程序开发，但当下年代基本没人会写它的代码了，因为太过时了。尽管MapReduce很老了，但现在仍旧活跃在一线，主要是Apache Hive框架非常火，而Hive底层就是使用的MapReduce。所以对于MapReduce的代码开发，课程会简单扩展一下，但不会深入讲解，对MapReduce的底层原理会放在Hive之后，基于Hive做深入分析。

MapReduce的运行机制

将要执行的需求，分解为多个Map Task和Reduce Task
将Map Task 和 Reduce Task分配到对应的服务器去执行

3.YARN概述

学习目标

1.了解MapReduce和YARN的关系

2.了解为什么需要资源调度

3.了解YARN的作用

YARN是做什么的？

YARN是Hadoop的一个组件
用以做集群的资源（内存、CPU等）调度

为什么需要资源调度

将资源统一管控进行分配可以提高资源利用率

程序如何在YARN内运行

程序向YARN申请所需资源
YARN为程序分配所需资源供程序使用

MapReduce和YARN的关系

YARN用来调度资源给MapReduce分配和管理运行资源
所以，MapReduce需要YARN才能执行（普遍情况）

4.YARN架构

学习目标

1.掌握YARN的运行角色和角色之间的关系

2.理解使用容器做资源分配和隔离

核心架构

主（Master）：ResourceManager
从（Slave）：NodeManager

两个角色各自的功能是什么？

ResourceManager：管理、统筹并分配整个集群的资源
NodeManager：管理、分配单个服务器的资源，即创建管理容器，由容器提供资源供程序使用

什么是YARN的容器？

容器（Container）是YARN的NodeManager在所属服务器上分配资源的手段
创建一个资源容器，即由NodeManager占用这部分资源
然后应用程序运行在NodeManager创建的这个容器内
应用程序无法突破容器的资源限制

ps：容器是虚拟化的相关机制

辅助架构

代理服务器(ProxyServer)：Web Application Proxy Web应用程序代理

代理服务器，即Web应用代理是 YARN 的一部分。默认情况下，它将作为资源管理器(RM)的一部分运行，但是可以配置为在独立模式下运行。使用代理的原因是为了减少通过 YARN 进行基于网络的攻击的可能性。这是因为， YARN在运行时会提供一个WEB UI站点（同HDFS的WEB UI站点一样）可供用户在浏览器内查看YARN的运行信息，对外提供WEB 站点会有安全性问题，而代理服务器的功能就是最大限度保障对WEB UI的访问是安全的。

代理服务器默认集成在了ResourceManager中，也可以将其分离出来单独启动。

历史服务器(JobHistoryServer)：应用程序历史信息记录服务

运行日志，产生在容器中，太零散了难以查看，统一收集到HDFS，由历史服务器托管为WEB UI供用户在浏览器统一查看。

5.MapReduce & YARN 的部署

学习目标

1.完成MapReduce框架的运行配置

2.完成YARN集群的部署

部署说明

Hadoop HDFS分布式文件系统，我们会启动：
- NameNode进程作为管理节点
- DataNode进程作为工作节点
- SecondaryNamenode作为辅助
同理，Hadoop YARN分布式资源调度，会启动：
- ResourceManager进程作为管理节点
- NodeManager进程作为工作节点
- ProxyServer、JobHistoryServer这两个辅助节点
那么，MapReduce呢？
- MapReduce运行在YARN容器内，无需启动独立进程

所以关于MapReduce和YARN的部署，其实就是2件事情：

MapReduce： 修改相关配置文件，但是没有进程可以启动
YARN： 修改相关配置文件，并启动ResourceManager、NodeManager进程以及辅助进程（代理服务器、历史服务器）

集群规划

MapReduce配置文件

在 $HADOOP_HOME/etc/hadoop 文件夹内，修改：

mapred-env.sh文件，添加如下环境变量

 export JAVA_HOME=/export/server/jdk
 export HADOOP_JOB_HISTORYSERVER_HEAPSIZE=1000
 export HADOOP_MAPRED_ROOT_LOGGER=INFO,RFA

mapred-site.xml文件，添加如下配置信息：

   <property>
     <name>mapreduce.framework.name</name>
     <value>yarn</value>
     <description></description>
   </property>
   <property>
     <name>mapreduce.jobhistory.address</name>
     <value>node1:10020</value>
     <description></description>
   </property>
   <property>
     <name>mapreduce.jobhistory.webapp.address</name>
     <value>node1:19888</value>
     <description></description>
   </property>
   <property>
     <name>mapreduce.jobhistory.intermediate-done-dir</name>
     <value>/data/mr-history/tmp</value>
     <description></description>
   </property>
   <property>
     <name>mapreduce.jobhistory.done-dir</name>
     <value>/data/mr-history/done</value>
     <description></description>
   </property>
 <property>
   <name>yarn.app.mapreduce.am.env</name>
   <value>HADOOP_MAPRED_HOME=$HADOOP_HOME</value>
 </property>
 <property>
   <name>mapreduce.map.env</name>
   <value>HADOOP_MAPRED_HOME=$HADOOP_HOME</value>
 </property>
 <property>
   <name>mapreduce.reduce.env</name>
   <value>HADOOP_MAPRED_HOME=$HADOOP_HOME</value>
 </property>

YARN配置文件

在 $HADOOP_HOME/etc/hadoop 文件夹内，修改：

yarn-env.sh文件，添加如下4行环境变量内容：

 export JAVA_HOME=/export/server/jdk
 export HADOOP_HOME=/export/server/hadoop
 export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
 export HADOOP_LOG_DIR=$HADOOP_HOME/logs

yarn-site.xml文件

 <!-- Site specific YARN configuration properties -->
 <property>
     <name>yarn.log.server.url</name>
     <value>http://node1:19888/jobhistory/logs</value>
     <description></description>
 </property>
 
   <property>
     <name>yarn.web-proxy.address</name>
     <value>node1:8089</value>
     <description>proxy server hostname and port</description>
   </property>
 
 
   <property>
     <name>yarn.log-aggregation-enable</name>
     <value>true</value>
     <description>Configuration to enable or disable log aggregation</description>
   </property>
 
   <property>
     <name>yarn.nodemanager.remote-app-log-dir</name>
     <value>/tmp/logs</value>
     <description>Configuration to enable or disable log aggregation</description>
   </property>
 
 
 <!-- Site specific YARN configuration properties -->
   <property>
     <name>yarn.resourcemanager.hostname</name>
     <value>node1</value>
     <description></description>
   </property>
 
   <property>
     <name>yarn.resourcemanager.scheduler.class</name>
     <value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler</value>
     <description></description>
   </property>
 
   <property>
     <name>yarn.nodemanager.local-dirs</name>
     <value>/data/nm-local</value>
     <description>Comma-separated list of paths on the local filesystem where intermediate data is written.</description>
   </property>
 
 
   <property>
     <name>yarn.nodemanager.log-dirs</name>
     <value>/data/nm-log</value>
     <description>Comma-separated list of paths on the local filesystem where logs are written.</description>
   </property>
 
 
   <property>
     <name>yarn.nodemanager.log.retain-seconds</name>
     <value>10800</value>
     <description>Default time (in seconds) to retain log files on the NodeManager Only applicable if log-aggregation is disabled.</description>
   </property>
 
 
 
   <property>
     <name>yarn.nodemanager.aux-services</name>
     <value>mapreduce_shuffle</value>
     <description>Shuffle service that needs to be set for Map Reduce applications.</description>
   </property>

分发配置文件

MapReduce和YARN的配置文件修改好后，需要分发到其它的服务器节点中。

在我们当前配置环境的目录下也可以直接使用以下命令（偷懒）

 scp * node2:`pwd`/
 scp * node3:`pwd`/

分发完成配置文件，就可以启动YARN的相关进程。

集群启动命令

ps:要先启动HDFS集群

常用的进程启动命令如下：

一键启动YARN集群：$HADOOP_HOME/sbin/start-yarn.sh
- 会基于yarn-site.xml中配置的yarn.resourcemanager.hostname来决定在哪台机器上启动resourcemanager
- 会基于workers文件配置的主机启动NodeManager
一键停止YARN集群： $HADOOP_HOME/sbin/stop-yarn.sh
在当前机器，单独启动或停止进程

$HADOOP_HOME/bin/yarn --daemon start|stop resourcemanager|nodemanager|proxyserver

start和stop决定启动和停止

可控制resourcemanager、nodemanager、proxyserver三种进程

历史服务器启动和停止

$HADOOP_HOME/bin/mapred --daemon start|stop historyserver

启动YARN集群

在node1服务器，以hadoop用户执行：start-yarn.sh

其次执行:mapred --daemon start historyserver启动HistoryServer

查看YARN的WEB UI页面

打开 http://node1:8088 即可看到YARN集群的监控页面（ResourceManager的WEB UI）

在最后，可以给虚拟机打上快照，保存安装状态

6.MapReduce & YARN 初体验

学习目标

1.掌握集群进程的启停命令

2.掌握提交自带MapReduce示例程序到YARN运行

集群启停命令

一键启动脚本

启动：

$HADOOP_HOME/sbin/start-yarn.sh

从yarn-site.xml中读取配置，确定ResourceManager所在机器，并启动它
读取workers文件，确定机器，启动全部的NodeManager
在当前机器启动ProxyServer（代理服务器）

关闭：

$HADOOP_HOME/sbin/stop-yarn.sh

单进程启停

除了一键启停外，也可以单独控制进程的启停。

$HADOOP_HOME/bin/yarn，此程序也可以用以单独控制所在机器的进程的启停

用法：yarn --daemon (start|stop) (resourcemanager|nodemanager|proxyserver)

$HADOOP_HOME/bin/mapred，此程序也可以用以单独控制所在机器的历史服务器的启停

用法：mapred --daemon (start|stop) historyserver

提交MapReduce任务到YARN执行

在部署并成功启动YARN集群后，我们就可以在YARN上运行各类应用程序了。

YARN作为资源调度管控框架，其本身提供资源供许多程序运行，常见的有：
- MapReduce程序
- Spark程序
- Flink程序

Spark和Flink是大数据后续的学习内容，目前先来体验一下在YARN上执行MapReduce程序的过程。

Hadoop官方内置了一些预置的MapReduce程序代码，我们无需编程，只需要通过命令即可使用。

常用的有2个MapReduce内置程序：
1. wordcount：单词计数程序。
  
  统计指定文件内各个单词出现的次数

2. pi：求圆周率

通过蒙特卡罗算法（统计模拟法）求圆周率

这些内置的示例MapReduce程序代码，都在：

$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar 这个文件内。

可以通过 hadoop jar 命令来运行它，提交MapReduce程序到YARN中。

语法：hadoop jar 程序文件 java类名 [程序参数] ... [程序参数]

提交wordcount示例程序

单词计数示例程序的功能很简单：

给定数据输入的路径（HDFS）、给定结果输出的路径（HDFS）
将输入路径内的数据中的单词进行计数，将结果写到输出路径

保存以下内容到Linux中为words.txt文件，并上传到HDFS

 itheima itcast itheima itcast
 hadoop hdfs hadoop hdfs
 hadoop mapreduce hadoop yarn
 itheima hadoop itcast hadoop
 itheima itcast hadoop yarn mapreduce

执行命令：

 hadoop fs -mkdir -p /input/wordcount
 hadoop fs -mkdir /output
 hadoop fs -put words.txt /input/wordcount/

执行如下命令，提交示例MapReduce程序WordCount到YARN中执行

 hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.4.0.jar wordcount hdfs://node1:8020/input/wordcount/ hdfs://node1:8020/output/wc1

注意：

参数wordcount，表示运行jar包中的单词计数程序（Java Class）
参数1是数据输入路径（hdfs://node1:8020/input/wordcount/)
参数2是结果输出路径(hdfs://node1:8020/output/wc1)，需要确保输出的文件夹不存在

查看运行日志

提交程序后，可以在YARN的WEB UI页面看到运行中的程序（http://node1:8088/cluster/apps)

执行完成后，可以借助历史服务器查看到程序的历史运行信息

ps：如果没有启动历史服务器和代理服务器，此操作无法完成（页面信息由历史服务器提供，鼠标点击跳转到新网页功能由代理服务器提供）

提交求圆周率示例程序

可以执行如下命令，使用蒙特卡罗算法模拟计算求PI（圆周率）

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.4.0.jar pi 3 1000

参数pi表示要运行的Java类，这里表示运行jar包中的求pi程序
参数3，表示设置几个map任务
参数1000，表示模拟求PI的样本数（越大求的PI越准确，但是速度越慢）

如图，运行完成，求得PI值（样本1000太小，不够精准，仅演示）

总结

Hadoop自带的MapReduce示例程序的代码jar包是

$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar

使用什么命令提交MapReduce程序到YARN中执行？

hadoop jar 命令

语法：hadoop jar 程序文件 java类名 [程序参数] ... [程序参数]

如何查看程序运行状态

在YARN WEB页面中查看

拓展：蒙特卡罗算法求PI的基础原理

示例代码

雨天的恶意

关注

12
点赞
踩
28

收藏

觉得还不错? 一键收藏
0
评论
第三章_分布式计算和资源调度（黑马版）

计算：对数据进行处理，使用统计分析等手段得到需要的结果分布式计算：多台服务器协同工作，共同完成一个计算任务学习目标1.掌握MapReduce和Hadoop的关系2.了解MapReduce的作用MapReduce是Hadoop中的分布式计算组件MapReduce可以以分散->汇总（聚合）模式执行分布式计算任务学习目标1.了解MapReduce和YARN的关系2.了解为什么需要资源调度3.了解YARN的作用容器（Container）是YARN的NodeManager在所属服务器上分配资源的手段。
复制链接

扫一扫

专栏目录