Hadoop1 最大的问题是JobTracker包含了资源管理和作业控制的功能。
这就导致资源和MapReduce框架的紧耦合。
Yarn将其分离成ResourceManager【RM】和ApplicationMaster【AM】。
RM提供全局性的资源调配, 每个AM管理自己的应用。仍然还是Master/Slave结构。
Slave是NodeManager【NM】。 可以支持其他的计算框架storm spark
spark 内存计算框架
场景: 在数据挖掘,机器学习,很多算法需要迭代多次才能得到结果,如果使用MR,每次都需要访问hdfs,IO便成为了瓶颈。spark能将其放入缓存中。
start-dfs.sh
NameNode
DataNode
SecondaryNameNode
start-yarn.sh
ResourceManager
NodeManager
start-hbase.sh
HMaster
这就导致资源和MapReduce框架的紧耦合。
Yarn将其分离成ResourceManager【RM】和ApplicationMaster【AM】。
RM提供全局性的资源调配, 每个AM管理自己的应用。仍然还是Master/Slave结构。
Slave是NodeManager【NM】。 可以支持其他的计算框架storm spark
spark 内存计算框架
场景: 在数据挖掘,机器学习,很多算法需要迭代多次才能得到结果,如果使用MR,每次都需要访问hdfs,IO便成为了瓶颈。spark能将其放入缓存中。
start-dfs.sh
NameNode
DataNode
SecondaryNameNode
start-yarn.sh
ResourceManager
NodeManager
start-hbase.sh
HMaster