MapReduce程序在yarn上启动运行过程

最新推荐文章于 2022-05-08 17:28:23 发布

遥遥晚风点点

最新推荐文章于 2022-05-08 17:28:23 发布

阅读量495

点赞数

文章标签： mapreduce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Mr_ye931/article/details/105985373

版权

客户端提交mr程序job的流程：

1，客户端提交job后（job.submit()），Yarn的ResourceManager会返回本次所提交的job的提交路径（hdfs://xxx../staging）和jobid，然后拼接为一个job的资源提交路径（hdfs://…./staging/jobid）

2，然后会将

1）job的切片规划（调用FileInputFormat.getSplits()获取切片规划List）序列化成的文件job.split

2）job.xml文件（job的相关参数）

3）job的jar包

拷贝到刚才拼接成的资源提交路径

mr程序在YARN上的工作机制：

1.客户端提交job后，通过客户端所在节点的YRANRUNNER向resource manager（之后简称rm）申请提交一个application

2.rm会返回任务的资源提交路径hdfs://xxx…/..和application_id

3.客户端所在节点的YRANRUNNER提交job运行所需要的资源（job.split、job.xml、job.jar）到前面提到的拼接的资源提交路径，资源提交完毕后申请运行mrAppMaster，先挑一台node manager创建容器（cpu+ram）运行mrAppMaster

4.rm将用户的请求封装成一个个的job，放入队列中（YARN的三种调度器，FIFO(默认)、Fair、Capacity），mrAppMaster领取到任务后先下载job资源到本地，然后根据任务描述，向rm申请运行maptask的容器，rm在分配容器给node manager来启动maptask和reducetask

注意点：

1)程序运行时，只有mrAppMaster知道运行信息，rm和node manager都不知道，YARN只负责资源的分配。从这一点可以看出YARN和mr程序是解耦的。

2)maptask执行完毕后，相应的资源会被回收，那之后启动的reduce拿到maptask生成的数据呢？maptask虽然不在了，但是有文件，它们被node manager管理，reduce可以找node manager 要，搭建环境时配过一个参数（mapreduced_shuffle）就是配合管理这些文件。

3)Hadoop1.x版本中角色分为JobTracker和TaskTracker，JobTracker既要监控运算流程，又要负责资源调度，耦合度高，导致负载过大。

MapReduce程序在yarn上运行过程

遥遥晚风点点

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MapReduce程序在yarn上启动运行过程

客户端提交mr程序job的流程：1，客户端提交job后（job.submit()），Yarn的ResourceManager会返回本次所提交的job的提交路径（hdfs://xxx../staging）和jobid，然后拼接为一个job的资源提交路径（hdfs://…./staging/jobid）2，然后会将1）job的切片规划（调用FileInputFormat.getSpl...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。