摘自《Hadoop权威指南-第4版》--- Tom White著,王海等译 --- 7.1节 P184~P189
Hadoop运行作业时的流程大致如下
在最高层,有以下5个独立的实体:
- 客户端,提交MapReduce作业。
- YARN资源管理器,负责协调集群上计算机资源的分配。
- YRAN节点管理器,负责启动和监视集群中机器上的计算容器(container)。
- MapReduce的application master,负责协调运行MapReduce作业的任务。它和MapReduce任务在容器中运行,这些容器由资源管理器分配并由节点管理器进行管理。
- 分布式文件系统(一般为HDFS),用来与其它实体间共享作业文件。