mapreduce是在很多机器上启动,并且先启动maptask,当众多的maptask都处理完自己的数据之后,还需要启动众多的reducetask,这个过程就需要启动一个自动化的调度平台–YARN。
这个平台有两个角色,分别是主节点Resource manager(1台)和Node manager(N台)。
Resource manager一般安装在一台专门的机器上,而Node manager应该与HDFS中的datanode重叠在一起。node manager主要负责为运行map task和reduce task创建出多个运行mapreduce的容器。node manager可以接受客户端传来的jar包并且可以接受客户端的请求,启动jar包中的某个程序。而Resource manager则在YARN中充当调度者的作用,告诉各个node manager应该各自启动多少个task。