MapReduce作业的运行过程如下图所示。包含4个独立的实体:
(1)Client:提交MapReduce作业
(2)JobTracker:协调作业的运行。
(3)TaskTracker:运行作业划分后的Map任务或Reduce任务。
(4)Shared FileSystem(一般为HDFS),用来在其他实体间共享作业文件。
Mapreduce工作机制
1.作业的提交
Job的waitForCompletion (true)方法所实现的作业提交过程如下:向jobtracker请求一个新的作业ID,见步骤2。检查作业的输出说明。计算作业的InputSplit。
2.作业初始化
JobTracker会把作业放入一个内部队列中,交由job scheduler进行调度,并