MapReduce之job提交逻辑及YARN框架技术机制

最新推荐文章于 2023-02-22 22:36:22 发布

低头敲代码

最新推荐文章于 2023-02-22 22:36:22 发布

阅读量154

点赞数

分类专栏： Hadoop 文章标签： Hadoop MapReduce 分布式计算 yarn job提交

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_34245841/article/details/84309854

版权

Hadoop 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

之前我们在Hadoop伪分布集群运用MapReduce时，分别在map和reduce写了自己的业务数据处理逻辑，然后把java代码打包

成一个jar丢到集群中去运行，那么在hadoop -jar命令执行的时候，job是怎么提交的呢？以及YARN框架在这过程是怎么工作的

呢？下面我们来分析一下。

简单介绍一下YARN框架：

1.YARN框架主要作用是资源调度；

2.YARN包含了两个节点：ResourceManager，NodeManager，类似于HDFS的NameNode和DataNode，他们是静态存在的，

只要是start-yarn.sh就会存在这俩个节点；

3.MapReduce在执行job的时候也会动态产生两个节点进程，MRAppMaster和yarnChild，job完成之后就会动态销毁；

runner代码中：

wcjob.waitForCompletion(true); //将job提交给集群运行

在执行到这条语句的时候，会在服务器上创建RunJar进程，他的作用是和ResourceManager通信并且提交job相关资源，如：

配置文件，jar等等；

提交逻辑：

1.RunJar向ResourceManager申请执行一个job；

2.ResourceManager返回job相关资源提交路径staging-dir和为本次job产生的jobID；

3.RunJar提交资源，提交到HDFS的某个路径上；

4.提交完成之后向ResourceManager汇报提交结果；

5.ResourceManager将本job加入任务队列；

6.ResourceManager向多个NodeManager分配任务；

7.领取到任务的NodeManager自行分配运行资源容器container，因为一台NodeManager可能运行多个job任务，所以要为每个

job分配好资源，如：分配运行内存等；

以上这些工作都是资源分配相关的，是由YARN框架来完成的，下面该MapReduce登场了；

8.启动MRAppMaster；

9.MRAppMaster向ResourceManager注册；

10.MRAppMaster启动map任务进程（yarnChild进程，可能会有多个map进程）；

11.所有的map执行完成之后，启动reduce任务进程（yarnChild进程）；

12.job任务完成之后MRAppMaster向ResourceManager注销MRAppMaster进程和yarnChild进程；

总结

低头敲代码

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MapReduce之job提交逻辑及YARN框架技术机制

之前我们在Hadoop伪分布集群运用MapReduce时，分别在map和reduce写了自己的业务数据处理逻辑，然后把java代码打包成一个jar丢到集群中去运行，那么在hadoop -jar命令执行的时候，job是怎么提交的呢？以及YARN框架在这过程是怎么工作的呢？下面我们来分析一下。简单介绍一下YARN框架： 1.YARN框架主要作用是资源调度； ...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。