MapReduce调度与执行原理之任务调度

最新推荐文章于 2022-10-06 16:00:16 发布

原创

最新推荐文章于 2022-10-06 16:00:16 发布 · 6.5k 阅读

6 ·

CC 4.0 BY-SA版权

本文详细介绍了Hadoop MapReduce中作业调度的过程，从作业提交到任务执行，重点讨论了任务调度器如何启动，作业如何被添加到调度队列，并按照优先级排序。文章还分析了JobQueueJobInProgressListener监听器的角色，以及JobSchedulingInfo对象在决定作业顺序中的作用。调度器采用pull方式，TaskTracker定时发送心跳信息，JobTracker根据心跳信息更新作业状态并分配任务。

前言：本文旨在理清在Hadoop中一个MapReduce作业（Job）在提交到框架后的整个生命周期过程，权作总结和日后参考，如有问题，请不吝赐教。本文不涉及Hadoop的架构设计，如有兴趣请参考相关书籍和文献。在梳理过程中，我对一些感兴趣的源码也会逐行研究学习，以期强化基础。
作者：Jaytalent
开始日期 ：2013年9月9日
参考资料：【1】《Hadoop技术内幕--深入解析MapReduce架构设计与实现原理》董西成

【2】 Hadoop 1.0.0 源码

【3】《Hadoop技术内幕--深入解析Hadoop Common和HDFS架构设计与实现原理》蔡斌陈湘萍

上一篇文章谈到作业的初始化，经过初始化的作业就可以被调度器调度并开始执行了。这篇文章关注调度器的工作原理。

一个MapReduce作业的生命周期大体分为5个阶段【1】：

1. 作业提交与初始化

2. 任务调度与监控

3. 任务运行环境准备

4. 任务执行

5. 作业完成

我们假设JobTracker已经启动，那么调度器是怎么启动的？JobTracker在启动时有以下代码：

JobTracker tracker = startTracker(new JobConf());
tracker.offerService();

其中offerService方法负责启动JobTracker提供的各个服务，有这样一行代码：

taskScheduler.start();

taskScheduler即为任务调度器。start方法是抽象类TaskScheduler提供的接口，用于启动调度器。每个调度器类都要继承TaskScheduler类。回忆一下，调度器启动时会将各个监听器对象注册到JobTracker，以FIFO调度器JobQueueTaskScheduler为例：

  @Override
  public synchronized void start() throws IOException {
    super.start();
    taskTrackerMan

最低0.47元/天解锁文章