Apache Yarn MapReduce作业提交流程

最新推荐文章于 2022-11-10 16:08:36 发布

猫君之上

最新推荐文章于 2022-11-10 16:08:36 发布

阅读量253

点赞数

分类专栏： # Apache Yarn 文章标签： MapReduce Yarn 作业提交流程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33713328/article/details/88687015

版权

Apache Yarn 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1）客户端向ResourceManager发送提交job的请求

2）ResourceManager向客户端返回一个job_id以及一个共享资源路径。

job_id job__系统时间戳_ _编号

共享资源路径 jar包里面包含maptask与reducetask,要想在所有节点上运行，那么必须将jar包上传到hdfs上（临时存储）

默认路径：/tmp/hadoop-yarn/staging/hadoop/.staging/jobid/…

目的：存放共享资源，程序运行的jar包（程序包）

job.jar 程序打成的jar包，统一命名为job.jar

job.split 即当前job的切片信息，便于计算maptask的启动个数

job.splitmetainfo 即当前job的切片的元数据信息

job.xml 当前job所有相关的配置信息。如job.setMappClass() ,在执行map的时候直接读该配置文件，不用扫描整个jar包

3）客户端将共享资源放到hdfs上(包括jar,split,xml)

4）客户端放置资源完成后，真正的提交应用程序

5）ResourceManager为当前的应用程序分配一个资源节点

6）resourceManager回到对应资源节点上启动container再启动MRAppMaster

7)MRAppMaster进行job的初始化，生成一个applicationid,生成一个当前job的作业簿(记录maptask和reducetask的运行进度和状态)

8）MRAPPMaster会到对应的共享资源路径下下载共享资源。

9）MRAPPMaster会向ResourceManager申请maptask和reducetask运行的资源（采用RPC通信机制，先申请maptask的资源，然后申请reducetask的资源，在申请maptask的时候回根据其切片的顺序来申请）

10）ResourceManager向MRAppMaster返回对应的资源节点（数据本地化:优先选取数据所在节点）

11）MRAPPMaster会与对应的节点通信，先启动该节点上的container

12）当前的节点会先到共享资源路径下去下载共享资源。

13）开始启动maptask任务。

14）maptask在运行过程中会向MRAppMaster汇报自己的运行状态和进度。

15）MRAPPMaster获取到有一个maptask运行完成，准备进行数据fetch.

16)MRAppMaster会到对应的节点上启动container

17）reducetask节点会先到对应的共享资源路径下下载共享资源。

18）等全部maptask完成，开始启动reducetask任务。reducetask在运行过程中，会向MRAPPMaster汇报自己的进度和状态。

19）当maptask或者reducetask运行完成，MRAPPMaster就会进行资源回收。

20）整个应用程序运行完毕，MRAPPMaster会向ResourceManager注销自己

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Apache Yarn MapReduce作业提交流程

1）客户端向ResourceManager发送提交job的请求2）ResourceManager向客户端返回一个job_id以及一个共享资源路径。job_id job__系统时间戳_ _编号共享资源路径 jar包里面包含maptask与reducetask,要想在所有节点上运行，那么必须将jar包上传到hdfs上（临时存储）默认路径：/tmp/hadoop-yarn/s...
复制链接

扫一扫

专栏目录

猫君之上 CSDN认证博客专家 CSDN认证企业博客

码龄9年

96: 原创

11万+: 周排名

193万+: 总排名

6万+: 访问

: 等级

1580: 积分

14: 粉丝

47: 获赞

7: 评论

103: 收藏

私信

关注

分类专栏

最新评论

Apache Hadoop Mapreduce作业执行前篇之任务执行前准备（上）
G港小霸王: 从老哥博客中学到了不少干货硬货，想请老哥喝杯咖啡
Hadoop Configuration类简要小解
G港小霸王: 强，老哥大数据几年了
MySQL 安装与目录介绍
猫君之上: [code=sql] 如果在通过客户端工具连接MySQL时遇到 [Err] 1055 - Expression #1 of ORDER BY clause is not in GROUP BY clause and contains nonaggregated column ‘information_schema.PROFILING.SEQ’ which is not functionally dependent on columns in GROUP BY clause; this is incompatible with sql_mode=only_full_group_by 1.首先修改当前数据库的sql_mode -- 查看SQL_MODE SELECT @@sql_mode; -- 修改SQL_MODE SET sql_mode=(SELECT REPLACE(@@sql_mode,'ONLY_FULL_GROUP_BY','')); 2.然后把剔除掉ONLY_FULL_GROUP_BY模式的结果配置到my.ini中【可通过执行命令SELECT @@sql_mode;查看，然后剔除ONLY_FULL_GROUP_BY】 [mysql] sql_mode=STRICT_TRANS_TABLES,NO_ZERO_IN_DATE,NO_ZERO_DATE,ERROR_FOR_DIVISION_BY_ZERO,NO_AUTO_CREATE_USER,NO_ENGINE_SUBSTITUTION [/code]
MySQL 安装与目录介绍
猫君之上: [code=sql] # windows解压版安装后使用 A temporary password is generated for root@localhost:********** 提示的临时密码登陆后，如果需要修改密码 ALTER USER USER() IDENTIFIED BY '新密码'; [/code]
MySQL 安装与目录介绍
猫君之上: mysql 8.0以上报2058 解决方式[注意-新密码两边的引号为英文的] mysql> ALTER USER 'root'@'localhost' IDENTIFIED WITH mysql_native_password BY '新密码'; mysql> flush privileges;

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。