YARN集群和 MapReduce 原理及应用

最新推荐文章于 2024-07-03 14:51:30 发布

2401_84182906

最新推荐文章于 2024-07-03 14:51:30 发布

阅读量1k

点赞数 16

分类专栏： 2024年程序员学习文章标签： mapreduce 大数据

本文链接：https://blog.csdn.net/2401_84182906/article/details/137661506

版权

2024年程序员学习专栏收录该内容

60 篇文章 1 订阅

订阅专栏

搭建：https://mp.weixin.qq.com/s/zPYsUexHKsdFax2XeyRdnA

配置hadoop安装目录下的 etc/hadoop/yarn-site.xml

配置hadoop安装目录下的 etc/hadoop/mapred-site.xml

例如：/opt/apps/hadoop-3.2.4/etc/hadoop/

配置 yarn-site.xml

vim etc/hadoop/yarn-site.xml

添加内容如下：

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>node3</value>
    </property>
</configuration>

注意：上面node3 为自己规划的作为 resourcemanager 节点的主机名

配置 mapred-site.xml

[zhang@node3 hadoop]$ vi mapred-site.xml

添加内容如下：

<configuration>
    <property>
            <name>mapreduce.framework.name</name>
            <value>yarn</value>
        </property>
    <property>
          <name>yarn.app.mapreduce.am.env</name>
          <value>HADOOP_MAPRED_HOME=/opt/apps/hadoop-3.2.4</value>
    </property>
    <property>
          <name>mapreduce.map.env</name>
          <value>HADOOP_MAPRED_HOME=/opt/apps/hadoop-3.2.4</value>
    </property>
    <property>
          <name>mapreduce.reduce.env</name>
          <value>HADOOP_MAPRED_HOME=/opt/apps/hadoop-3.2.4</value>
    </property>
</configuration>

注意：上面的 /opt/apps/hadoop-3.2.4 为自己 hadoop 的安装目录

同步配置

修改完成后，需要复制配置到其他所有节点

scp -r etc/ zhang@node1:/opt/apps/hadoop-3.2.4/

scp -r etc/ zhang@node1:/opt/apps/hadoop-3.2.4/

在 $HADOOP_HOME/etc/下

scp -r hadoop/yarn-site.xml zhang@node2:/opt/apps/hadoop-3.2.4/etc/hadoop/

也可以通过 pwd来表示远程拷贝到和当前目录相同的目录下

scp -r hadoop node2:`pwd`  # 注意：这里的pwd需要使用``(键盘右上角，不是单引号)，表示当前目录

启动 YARN 集群

 # 在主服务器（ResourceManager所在节点）上hadoop1启动集群
 sbin/start-yarn.sh
 # jps查看进程，如下所⽰代表启动成功
==========node1===========
[zhang@node1 hadoop]$ jps
7026 DataNode
7794 Jps
6901 NameNode
7669 NodeManager

==========node2===========
[zhang@node2 hadoop]$ jps
9171 NodeManager
8597 DataNode
8713 SecondaryNameNode
9294 Jps

==========node3===========
[zhang@node3 etc]$ start-yarn.sh
Starting resourcemanager
Starting nodemanagers
[zhang@node3 etc]$ jps
11990 ResourceManager
12119 NodeManager
12472 Jps
11487 DataNode

启动成功后，可以通过浏览器访问 ResourceManager 进程所在的节点 node3 来查询运行状态

截图如下：

MapReduce

简介和原理

MapReduce 是一种分布式编程模型，最初由 Google 提出并在学术论文中公开描述，后来被广泛应用于大规模数据处理，尤其是 Apache Hadoop 等开源项目中实现了这一模型。MapReduce 的核心思想是将复杂的大量数据处理任务分解成两个主要阶段：Map（映射）阶段和 Reduce（归约）阶段。

Map（映射）阶段：

将输入数据集划分为独立的块。
对每个数据块执行用户自定义的 map 函数，该函数将原始数据转换为一系列中间键值对。
输出的结果是中间形式的键值对集合，这些键值对会被排序并分区。

Shuffle（洗牌）和 Sort（排序）阶段：

在 map 阶段完成后，系统会对产生的中间键值对进行分发、排序和分区操作，确保具有相同键的值会被送到同一个 reduce 节点。

Reduce（归约）阶段：

每个 reduce 节点接收一组特定键的中间键值对，并执行用户自定义的 reduce 函数。
reduce 函数负责合并相同的键值对，并生成最终输出结果。

整个过程通过高度并行化的方式完成，非常适合处理 PB 级别的海量数据。由于其简单易懂的设计理念和强大的并行处理能力，MapReduce 成为了大数据处理领域的重要基石之一，尤其适用于批处理类型的分析任务，如网页索引构建、日志分析、机器学习算法实现等。

下面通过一张使用 MapReduce 进行单词数统计的过程图，来更直观的了解 MapReduce 工作过程和原理

MapReduce 示例程序

在搭建好 YARN 集群后，就可以测试 MapReduce 的使用了，下面通过两个案例来验证使用 MapReduce

单词统计
pi 估算

在hadoop 安装目录下的 share/hadoop/mapreduce 目录下存放了一些示例程序 jar 包，

可以调用 hadoop jar 命令来调用示例程序

具体步骤如下：

PI 估算案例

先切换目录到安装目录/share/hadoop/mapreduce/ 下

[zhang@node3 ~]$ cd /opt/apps/hadoop-3.2.4/share/hadoop/mapreduce/
[zhang@node3 mapreduce]$ ls
hadoop-mapreduce-client-app-3.2.4.jar              hadoop-mapreduce-client-shuffle-3.2.4.jar
hadoop-mapreduce-client-common-3.2.4.jar           hadoop-mapreduce-client-uploader-3.2.4.jar
hadoop-mapreduce-client-core-3.2.4.jar             hadoop-mapreduce-examples-3.2.4.jar
hadoop-mapreduce-client-hs-3.2.4.jar               jdiff
hadoop-mapreduce-client-hs-plugins-3.2.4.jar       lib
hadoop-mapreduce-client-jobclient-3.2.4.jar        lib-examples
hadoop-mapreduce-client-jobclient-3.2.4-tests.jar  sources
hadoop-mapreduce-client-nativetask-3.2.4.jar
[zhang@node3 mapreduce]$

调用 jar 包执行

hadoop jar hadoop-mapreduce-examples-3.2.4.jar pi 3 4

[zhang@node3 mapreduce]$ hadoop jar hadoop-mapreduce-examples-3.2.4.jar pi 3 4
Number of Maps  = 3  # 
Samples per Map = 4
Wrote input for Map #0
Wrote input for Map #1
Wrote input for Map #2
Starting Job
2024-03-23 17:48:56,496 INFO client.RMProxy: Connecting to ResourceManager at node3/192.168.184.13:8032
2024-03-23 17:48:57,514 INFO mapreduce.JobResourceUploader: Disabling Erasure Coding for #............省略
2024-03-23 17:48:59,194 INFO mapreduce.Job: Running job: job_1711186711795_0001
2024-03-23 17:49:10,492 INFO mapreduce.Job: Job job_1711186711795_0001 running in uber mode : false
2024-03-23 17:49:10,494 INFO mapreduce.Job:  map 0% reduce 0%
2024-03-23 17:49:34,363 INFO mapreduce.Job:  map 100% reduce 0%
............
    Shuffle Errors
        BAD_ID=0
        CONNECTION=0
        IO_ERROR=0
        WRONG_LENGTH=0
        WRONG_MAP=0
        WRONG_REDUCE=0
    File Input Format Counters 
        Bytes Read=354
    File Output Format Counters 
        Bytes Written=97
Job Finished in 53.854 seconds
Estimated value of Pi is 3.66666666666666666667  # 计算结果

命令的含义

这个命令的具体含义是：

hadoop jar: 命令用于执行 Hadoop 应用程序，这里的应用程序是指从 JAR 包 hadoop-mapreduce-examples-3.2.4.jar 中提取的 MapReduce 程序。
pi: 这是具体的示例程序名称，用于通过概率方法估算π值。
2: 这个数字代表实验的总样本数（也称为总投点数），意味着将会随机投掷2次点来估计π值。
4: 这个数字通常表示地图任务（map tasks）的数量，也就是说，计算过程将会被拆分为4个部分来并行执行。

单词统计案例

hadoop-mapreduce-examples-3.2.4.jar 是 Apache Hadoop MapReduce 框架的一部分，其中包含了多个演示 MapReduce 概念和功能的例子程序，其中一个经典例子就是 wordcount。

wordcount 示例程序展示了如何使用 MapReduce 模型处理大规模文本数据，统计文本中每个单词出现的次数。当你在 Hadoop 环境中执行如下命令时：
hadoop jar hadoop-mapreduce-examples-3.2.4.jar wordcount input_path output_path
这里发生了以下过程：

input_path：指定输入数据的位置，通常是 HDFS 上的一个目录，该目录下的所有文件将作为输入数据源，被分割成各个映射任务（Mapper）处理。
Mapper：每个映射任务读取一段输入数据，并将其拆分成单词，然后为每个单词及其出现次数生成键值对 <word, 1>。
Reducer：所有的映射任务完成后，Reducer 对由 Mapper 发出的中间键值对进行汇总，计算出每个单词的总出现次数，并将最终结果输出到 output_path 指定的 HDFS 目录下。

演示步骤如下：

新建文件

首先在 /opt/下新建目录 data 用来存放要统计的文件

新建 word.txt 文件并输入内容如下：

hello java
hello hadoop
java hello
hello zhang java

具体命令如下：

[zhang@node3 opt]$ mkdir data
[zhang@node3 opt]$ cd data
[zhang@node3 data]$ ls
[zhang@node3 data]$ vim word.txt

上传文件到hadoop

hdfs dfs 命令
新建 input 目录用来存放 word.txt 文件

[zhang@node3 data]$ hdfs dfs -mkdir /input  # 新建目录
[zhang@node3 data]$ hdfs dfs -ls /          # 查看目录
Found 1 items
drwxr-xr-x   - zhang supergroup          0 2024-03-23 16:52 /input
[zhang@node3 data]$ hdfs dfs -put word.txt /input # 上传文件到目录
[zhang@node3 data]$

统计单词

hadoop jar hadoop-mapreduce-examples-3.2.4.jar wordcount /input /outputx

hadoop jar 为命令

hadoop-mapreduce-examples-3.2.4.jar 为当前目录下存在jar文件

wordcount 为要调用的具体的程序

/input 为要统计单词的文件所在的目录，此目录为 hadoop 上的目录

/outputx 为输出统计结果存放的目录

注意：/outputx 目录不能先创建，只能是执行时自动创建，否则异常

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数大数据工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年大数据全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上大数据开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新

如果你觉得这些内容对你有帮助，可以添加VX：vip204888 （备注大数据获取）

。**
[外链图片转存中…(img-97fJ04qg-1712866136939)]
[外链图片转存中…(img-ctDoLuGB-1712866136940)]
[外链图片转存中…(img-SIbAK0dT-1712866136941)]
[外链图片转存中…(img-IdwRSay6-1712866136941)]
[外链图片转存中…(img-ac0m6nlu-1712866136941)]

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上大数据开发知识点，真正体系化！

如果你觉得这些内容对你有帮助，可以添加VX：vip204888 （备注大数据获取）
[外链图片转存中…(img-8ts3fOsM-1712866136942)]

2401_84182906

关注

16
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
YARN集群和 MapReduce 原理及应用

MapReduce 是一种分布式编程模型，最初由 Google 提出并在学术论文中公开描述，后来被广泛应用于大规模数据处理，尤其是 Apache Hadoop 等开源项目中实现了这一模型。MapReduce 的核心思想是将复杂的大量数据处理任务分解成两个主要阶段：Map（映射）阶段和 Reduce（归约）阶段。Map（映射）阶段将输入数据集划分为独立的块。对每个数据块执行用户自定义的 map 函数，该函数将原始数据转换为一系列中间键值对。输出的结果是中间形式的键值对集合，这些键值对会被排序并分区。
复制链接

扫一扫