MR作业提交全过程

本文详细介绍了YARN中MapReduce作业的提交过程,从client提交作业到资源管理器分配container,再到MRAppMaster的运行和任务调度。同时,概述了MapReduce的shuffle执行环节,包括分区、排序、合并和溢写操作。此外,还讲解了HDFS的数据写入和读取流程,包括客户端与Namenode的交互、数据在DataNode间的传输以及数据的本地缓存和写入。
摘要由CSDN通过智能技术生成

YARN作业提交全过程(详细)

client调用job.waitForCompletion方法,向整个集群提交MapReduce作业 (第1步) 。 新的作业ID(应用ID)由资源管理器分配(第2步).
作业的client核实作业的输出, 计算输入的split,将作业的资源(包括Jar包, 配置文件, split信息)拷贝给HDFS(第3步). 最后, 通过调用资源管理器的submitApplication()来提交作业(第4步).
当资源管理器收到submitApplication()的请求时, 就将该请求发给调度器(scheduler), 调度器分配container, 然后资源管理器在该container内启动应用管理器进程, 由节点管理器监控(第5a和5b步)。


MapReduce作业的应用管理器是一个主类为MRAppMaster的Java应用。其通过创造一些bookkeeping对象来监控作业的进度,
得到任务的进度和完成报告(第6步)。然后其通过分布式文件系统得到由客户端计算好的输入split(第7步)。然后为每个输入split创建一个map任务,
根据mapreduce.job.reduces创建reduce任务对象。


  如果作业很小,应用管理器会选择在其自己的JVM中运行任务。如果不是小作业, 那么应用管理器
  向资源管理器请求container来运行所有的map和reduce任务(第8步). 这些请求是通过心跳来传输的,

包括每个map任务的数据位置, 比如存放输入split的主机名和机架(rack). 调度器利用这些信息来调度任务,

尽量将任务分配给存储数据的节点, 或者退而分配给和存放输入split的节点相同机架的节点.

 当一个任务由资源管理器的调度分配给一个container后, 应用管理器通过联系节点管理器来启
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值