MapReduce是Hadoop重要组成部分,主要包含map、shuffle和reduce过程。
1) 在集群中任意主机运行job程序;
2) 向jobtracker申请jobID
3) 通过HDFS散发文件,拷贝
4) 提交作业
5) Jobtracker初始化工作
6) Jobtracker向HDFS中的namenode询问文件信息
7) Tasktracker与jobtracker心跳机制,确定taskTracker
8) Tasktracker向HDFS申请文件
9) taskTracker开始假设jvm,运行job