MapReduce on Yarn

最新推荐文章于 2022-04-05 14:12:01 发布

Gru杨

最新推荐文章于 2022-04-05 14:12:01 发布

阅读量275

点赞数

分类专栏： Hadoop 文章标签： HDFS

本文链接：https://blog.csdn.net/weixin_43517453/article/details/88577801

版权

Hadoop 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

MapRduce

MapReduce是一个软件框架，基于该框架能够容易地编写应用程序，这些应用程序能够运行在由上千个商用机器组成的大集群上，并以一种可靠的，具有容错能力的方式并行地处理上TB级别的海量数据集。

MapReduce的思想就是“分而治之”：
Map（映射）：把复杂的任务分解为若干个“简单的任务”来处理。
Reduce（规约）：把map阶段的结果进行汇总。
在这里插入图片描述
实体一：客户端，用来提交MapReduce作业。

实体二：JobTracker，用来协调作业的运行。

实体三：TaskTracker，用来处理作业划分后的任务。

实体四：HDFS，用来在其它实体间共享作业文件。

但是，MapReduce缺点十分明显，基于磁盘，计算慢，而且需要开发java代码。

Yarn

1）. ResourceManager 资源作业管理者
Applications Manager 作业管理（管理各种作业申请）
Resource Scheduler 资源调度

2）. NodeManager 节点管理者上面有很多容器。
容器：Yarn的资源的抽象的观念

在 nodemanager节点机器上的
虚拟的概念
将一定大小的内存和cpu vcore组成的最小单元（虚拟core，用虚拟core表示是考虑到不同节点的cpu性能不一样，每个cpu的计算能力也不同）
运行task

MapReduce on Yarn

这三个其实是一个问题：
mr job执行流程
mr on yarn架构
yarn架构设计
job app application 都指的是作业。MapReduce中的map ， reduce 都属于 task（task是运行计算任务，在container容器中。）job app application 都指的是作业
在这里插入图片描述
MapReduce ApplicationMaster:是指MR的应用程序的主程序，主要负责程序的监控状态，重启失败的任务

用户通过client向Yarn提交应用程序(job)，交给老大ResourceManager的ApplicationsManager，其中包括applicationMaster程序（job的主程序，引导程序），启动applicationMaster命令等
ResourceManager为该job分配第一个容器，并与对应的NodeManeger通信，要求它在这个容器中去启动job的MapReduce applicationMaster程序（MR的引导程序）
ApplicationMaster首先向Applications Manager注册，告诉老大我在这边成功了。用户就可以直接在web界面查看job的整个运行状态和日志。
ApplicationMaster再去向Resource Scheduler 采用轮询（如果申请不到足够的资源，先申请一些运行着。运行完释放了，再继续申请）的方式通过RPC协议去申请和领取资源列表
一旦ApplicationMaster申请到资源的后，便与对应的NM节点通信（可以与自己的nodemanager也可以与别人nodemanager），要求启动任务。
NM为任务task设置好运行环境(环境变量、jar包等)，将任务的启动命令写在一个脚本文件中，并通过这个脚本启动任务，运行各个map task,reduce task。
各个task通过rpc向applicationMaster汇报自己的状态和进度，以让applicationMaster随时掌握各个任务的运行状态，从而可以在任务运行时重新启动任务。web界面可以实时查看job的当前的运行状态。
ApplicationMaster 向 ApplicationsManager 报告，成功后，注销并关闭自己

其实就分为两个阶段：
1）. 启动ApplicationMaster
2）. 由ApplicationMaster创建job，为他们申请资源，并监控他们的整个运行过程，直到运行结束。

Yarn调度器

job 去调度申请资源
规则:
FIFO 先进先出先来的先拿资源，直到第一个Job做完再做第二个后来的Job
Capacity 计算会造成资源的浪费因为系统会空出一部分资源给小任务
不管有没有，这部分都会预留着
Fair 公平调度器，既考虑了小作业及时完成，也不浪费资源生产上常用这种方法
这种模式下，并不需要预先占用系统资源，调度器为所有的任务动态调度资源
但是从第二个任务提交到获取资源会有一定的延迟，因为需要等待第一个任务释放占用的
container容器

Gru杨

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
MapReduce on Yarn

MapRduceMapReduce是一个软件框架，基于该框架能够容易地编写应用程序，这些应用程序能够运行在由上千个商用机器组成的大集群上，并以一种可靠的，具有容错能力的方式并行地处理上TB级别的海量数据集。MapReduce的思想就是“分而治之”：Map（映射）：把复杂的任务分解为若干个“简单的任务”来处理。Reduce（规约）：把map阶段的结果进行汇总。实体一：客户端，用来提交Ma...
复制链接

扫一扫