大数据-MapReduce和Yarn技术原理_执行mapreduce的时候为什么首先请求yarn

最新推荐文章于 2024-05-16 10:19:13 发布

m0_74932057

最新推荐文章于 2024-05-16 10:19:13 发布

阅读量985

点赞数 18

分类专栏： 2024年程序员学习文章标签：大数据 mapreduce

本文链接：https://blog.csdn.net/m0_74932057/article/details/137899625

版权

2024年程序员学习专栏收录该内容

79 篇文章 0 订阅

订阅专栏

先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7

深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年最新大数据全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以添加V获取：vip204888 （备注大数据）

正文

MapReduce执行任务

在启动MapReduce之前，确保待处理的文件在HDFS上面。
MapReduce应用请求提交给RM，有RM创建对应的Job，一个应用对应一个Job（JobID，job_292214321_12312）
Job提交之前，先将待处理的文件进行分片（split）。MR框架默认将一个块（block）作为一个分片。客户端应用重新定义块与分区的映射关系。
Job提交给RM,RM根据NM的负载在NM集群中挑选合适的节点调度AM，AM负责Job任务的初始化并且向RM申请资源，由RM调度合适的NM启动Container，Container来执行Task。
Map的输出放入一个环形内存缓冲区，当缓冲数据溢出时，需将缓冲区中的数据写入本地磁盘，写入本地磁盘通常要做如下处理：
（1）分区（Partition）
默认采用Hash算法进行分区，MR框架根据Reduce Task个数来确定分区的个数。具备相同Key值的记录最终被送到相同的 Reduce Task来处理
（2）排序（Sort）
将Map输出的记录进行排序。例如将（‘Hi’,‘1’）,(‘Hello’,‘1’)
重新排序为（‘Hello’,‘1’）,(‘Hi’,‘1’)
（3）组合（Combine）
这个动作MR框架默认是可选的。例如将（‘Hi’,‘1’）,（‘Hi’,‘1’）,（‘Hello’,‘1’）,（‘Hello’，‘1’）进行合并操作（‘Hi’，‘2’），（‘Hello’，‘2’）
（4）合并（spill）
Map Task在处理后会产生很多的溢出文件（spill file），这是需要将多个溢出文件进行合并处理，生成一个经过分区和排序的spill file（MOP:MapOutFile）。为减少写入磁盘的数据量，MR支持对MOP进行压缩后再写入。

通常在Map Task任务完成MOF输出进度到约3%时启动Reduce，从各个Map Task获取MOF文件。Reduce Task个数由客户端决定，Reduce Task 个数决定MOF文件分区数。因此Map Task输出的MOF文件都能找到对应的Reduce Task来处理。

当Reduce Task接收的数据量不大时，则直接存放在内存缓冲区中，随着缓冲区文件的增多，MR后台线程将它们合并成一个更大有序文件，这个动作是Reduce阶段的Merge操作，这个过程中会产生许多中间文件，最后一次合并的结果直接输出到用户自定义的reduce函数。

shuffle的定义：Map阶段和Reduce阶段之间传递中间数据的过程，包括Reduce Task从各个Map Task获取MOF文件的过程，以及对MOF的排查和合并处理过程。

Yarn功能与架构

在这里插入图片描述

Yarn功能与架构

在这里插入图片描述
RM（Resource Manager）
负责集群资源的统一管理和计算框架管理，主要包括调度与应用程序管理
调度器：根据容量、队列等限制条件，将系统中的资源分配给各个正在运行的应用程序。
应用程序管理器：负责管理整个系统中的所有应用程序，包括应用程序提交，与调度器协调资源以启动AM、监控Am运行状态，并在失败时重新启动它。

NM（Node Manager）
节点资源管理监控和容器管理，RM是系统中将资源分配给各个应用的最终决策者。
AM(AppMaster)
各种计算框架的实现（例如：MRAM），向RM申请资源，并通知NM管理相应的资源。
Container
Yarn中的资源抽象，它封装了某个节点上的多维度资源，如内存、CPU、磁盘、网络等。
在这里插入图片描述
Yarn客户端与RM内部交互的原理
1.客户端通知RM提交一个应用；
2.RM生成一个唯一标识的应用ID（JobID），同时将当前NM集群的资源描述信息反馈给客户端；
3.客户端根据RM的反馈信息，开始Job提交之前的初始化过程，包括队列、用户及优先级信息，和RM创建，启动AM所需的信息（例如应用Jar文件，Job资源信息，安全Token或其他资源描述）；
4.客户端向RM查询、获取应用的执行进展报告；
5.RM将应用执行进展报告发送给Client
6.如有必要，客户端可直接通知RM终止application的运行.

Yarn HA方案
Yarn中的Resource Manager是整个集群的资源管理和任务调度，在以前的版本，ResourceManager在yarn集群中存在单点故障的问题。Yarn高可用方案引入冗余的ResourceManager节点的方式，解决了这个基础服务的可靠性和容错性。
在这里插入图片描述

Yarn资源管理与任务调度

资源管理
当前yarn支持内存和CPU两种资源类型的管理和分配；
每个NodeManager可分配的内存和CPU数量可以通过配置选项设置（可在Yarn配置页面配置）。
资源分配模型
容器调度器的介绍
容器调度器使Hadoop应用能够共享的，多用户的，操作简便的运行在集群上，同时最大化集群的吞吐量和利于率。
容器调度器以队列为单位划分资源，每个队列都有资源使用的下限和上限。每个用户可以设定资源使用上限。管理员可以约束单个队列、用户或作业的资源使用。支持队列优先级，但不支持队列抢占。
容器调度的特点
容量保证：管理员可为每个队列设置资源最低保证和资源使用上限，所有提交到该队列的应用程序共享这些资源。
灵活性：如果一个队列中的资源有剩余，可以暂时共享给那些需要资源的队列，该队列有新的应用程序提交，则其他队列释放的资源会归还给该队列。
支持优先级：队列支持任务优先级调度。（默认是FIFO）
多重租赁：支持多用户共享集群和多应用程序同时运行。为防止单个应用程序，用户或队列独占集群资源，管理可为之增加多重限制。
动态更新配置文件：管理员可根据需要动态修改的配置参数，以实现在线集群管理。
容器调度器的任务选择
调度时，首先按以下策略选择一个合适队列：
资源利用率最低的队列优先
最小队列层优先
资源回收请求队列优先
然后按以下策略选择该队列中一个任务：
按照优先级和提交时间顺序选择，同时考虑用户资源量限制和内存限制。
按照任务优先级和提交时间顺序选择，同时考虑用户资源限制和内存限制；

队列资源限

队列资源容量
共享空闲资源

用户和任务限制

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以添加V获取：vip204888 （备注大数据）

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

mg-re59Idam-1713389196605)]

m0_74932057

关注

18
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
大数据-MapReduce和Yarn技术原理_执行mapreduce的时候为什么首先请求yarn

当Reduce Task接收的数据量不大时，则直接存放在内存缓冲区中，随着缓冲区文件的增多，MR后台线程将它们合并成一个更大有序文件，这个动作是Reduce阶段的Merge操作，这个过程中会产生许多中间文件，最后一次合并的结果直接输出到用户自定义的reduce函数。3.客户端根据RM的反馈信息，开始Job提交之前的初始化过程，包括队列、用户及优先级信息，和RM创建，启动AM所需的信息（例如应用Jar文件，Job资源信息，安全Token或其他资源描述）；4.客户端向RM查询、获取应用的执行进展报告；
复制链接

扫一扫