MR作业提交全过程

最新推荐文章于 2024-06-27 11:34:29 发布

AHincsdn

最新推荐文章于 2024-06-27 11:34:29 发布

阅读量2.1k

点赞数

分类专栏： HDFS作业提交文章标签： mapreduce 作业提交全过程

本文链接：https://blog.csdn.net/ahincsdn/article/details/119532319

版权

本文详细介绍了YARN中MapReduce作业的提交过程，从client提交作业到资源管理器分配container，再到MRAppMaster的运行和任务调度。同时，概述了MapReduce的shuffle执行环节，包括分区、排序、合并和溢写操作。此外，还讲解了HDFS的数据写入和读取流程，包括客户端与Namenode的交互、数据在DataNode间的传输以及数据的本地缓存和写入。

摘要由CSDN通过智能技术生成

YARN作业提交全过程（详细）

client调用job.waitForCompletion方法，向整个集群提交MapReduce作业 (第1步) 。新的作业ID(应用ID)由资源管理器分配(第2步).
作业的client核实作业的输出, 计算输入的split,将作业的资源(包括Jar包, 配置文件, split信息)拷贝给HDFS(第3步). 最后, 通过调用资源管理器的submitApplication()来提交作业(第4步).
当资源管理器收到submitApplication()的请求时, 就将该请求发给调度器(scheduler), 调度器分配container, 然后资源管理器在该container内启动应用管理器进程, 由节点管理器监控(第5a和5b步)。

MapReduce作业的应用管理器是一个主类为MRAppMaster的Java应用。其通过创造一些bookkeeping对象来监控作业的进度,
得到任务的进度和完成报告(第6步)。然后其通过分布式文件系统得到由客户端计算好的输入split(第7步)。然后为每个输入split创建一个map任务,
根据mapreduce.job.reduces创建reduce任务对象。
  如果作业很小，应用管理器会选择在其自己的JVM中运行任务。如果不是小作业, 那么应用管理器
  向资源管理器请求container来运行所有的map和reduce任务(第8步). 这些请求是通过心跳来传输的,

包括每个map任务的数据位置, 比如存放输入split的主机名和机架(rack). 调度器利用这些信息来调度任务,

尽量将任务分配给存储数据的节点, 或者退而分配给和存放输入split的节点相同机架的节点.
 当一个任务由资源管理器的调度分配给一个container后, 应用管理器通过联系节点管理器来启

最低0.47元/天解锁文章

AHincsdn

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MR作业提交全过程

client调用job.waitForCompletion方法，向整个集群提交MapReduce作业 (第1步) 。新的作业ID(应用ID)由资源管理器分配(第2步). 作业的client核实作业的输出, 计算输入的split,将作业的资源(包括Jar包, 配置文件, split信息)拷贝给HDFS(第3步). 最后, 通过调用资源管理器的submitApplication()来提交作业(第4步). 当资源管理器收到submitApplication()的请求时, 就将该请求发给调度器(sch
复制链接

扫一扫

专栏目录