MapReduce作业运行过程_运行mapreduce作业的代码-CSDN博客

本文链接：https://blog.csdn.net/kaede1209/article/details/81953339

本文详细解析了MapReduce框架中JobClient的runJob()方法如何启动作业，包括作业提交、任务调度与执行的过程。重点介绍了JobTracker与TaskTracker的角色，以及它们在MapReduce作业执行中的交互流程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

JobClient的runJob()方法：新建JobClient实例，并调用其submitJob()方法。提交作业后，runJob()每秒轮询作业进度，如果发现上次上报后信息有改动，则把进度报告输出到控制台。作业完成，成功则显示作业计数器；失败则输出错误到控制台。

（一）JobClient的submitJob()的作业提交过程：

1. 向JobTracker请求一个新jobID，通过JobTracker的getNewJobId()获取；

2. 检查作业输出说明。例如，如果没有指定输出目录或者已经存在，作业将不会被提交，错误返回给MR程序；

3. 计算作业输出划分split。如果划分无法计算（eg.输入路径不存在），作业将不会被提交，错误返回给MR程序；

4. 将运行作业所需要的资源（作业的jar文件、配置文件、计算所得的输入划分）复制到一个以作业ID命名的目录中JobTracker的文件系统。如果作业jar的副本很多，在TaskTracker运行作业任务时，集群可以提供多副本访问（图中step3）；

5. 通过调用JobTracker的submitJob()方法，告诉JobTracker作业准备执行（图中step4）；

6. JobTracker接收到submitJob()方法调用后，把此调用放到一个内部队列中，交由作业调度器进行调度，并对其进行初始化（包括创建一个代表该正在运行的作业对象，负责封装任务和记录信息，以便跟踪任务的状态和进程）。（图中step5）

7. 创建运行任务列表，作业调度去首先从共享文件系统中获取JobClient已经计算好的输入划分信息（图中step6），然后为每个划分创建一个Map任务（一个split对应一个map，有多少split就有多少map）。创建的Reduce任务的数量由JobConf的mapred.reduce.tasks属性决定，其用setNumReduceTasks()方法设定，然后调度器便创建指定个数的Reduce来运行任务，任务在此时指定ID。

8. TaskTracker执行一个简单的循环，定期发送心跳（heartbeat）调用JobTracker，心跳告诉JobTrackder是否存活以及充当消息通道。（图中step7）