Introduction:
这是一篇偏工程性的paper,主要由Hortonworks公司的人写成,共有16位作者,是阐述第二代Hadoop的计算平台Yarn的发展驱动,设计理念和基本框架等,并将两代hadoop做比较分析,凸显YARN的优势,同时将其与类似Mesos等系统做对比分析。这篇paper是SOCC2013年的best paper,是学习YARN的一篇必读论文吧。
Keyword
motivation
在Hadoop1.x中MapReduce是Master/Slave结构,在集群中的表现形式为:1个JobTracker带多个TaskTracker。JobTracker:负责资源管理和作业调度;TaskTracker:定期向JobTracker汇报本节点的健康状况、资源使用情况以及任务的执行情况;接收来自JobTracker的命令(启动/杀死任务等)并执行接收到的命令。如此,JobTracker负责接收处理来自各个TastTracker节点的RPC请求,压力很大,这就大大限制了集群的扩展,节点规模要扩大,它就将成为一个瓶颈。同时存在单点故障问题,而对于第一代hadoop来说它不能支持除MR之外的计算框架也是一个问题。为此要对其进行大的修整。
Contribution
YARN是Yet Another Resource Negotiator的简称,是由社区多人贡献实现的,本文总结了其设计/发展和目前的一个部署情况。Yarn的设计一个main idea在于它解耦了编程模型