还是关于集群调度的文章,发表在ASPLOS 2013,作者是斯坦福大学的Christina Delimitrou和Christos Kozyrakis,这一年真的没少看他们的文章。
该文章依旧是在数据中心下如何保障应用性能和提高资源利用率的大背景下的文章,其主要关注于两点,数据中心中硬件平台的异构性和应用负载之间的干扰。
- 硬件平台的异构性主要是因为数据中心的机器是在不断的更新中的,比如3年前进的一批机器,3年后可能因为内存、CPU、存储等能力的增强会再进一批新的机型,但是3年前的肯定不会扔掉会继续用,一年年的下来会导致机器越来越多样化,异构性增强,因此在调度方面如果忽略了异构性效率是很难提升上来的;
- 干扰是由于为了提高机器的资源利用率,往往会往同一台服务器上部署多个应用,应用之间因为共享同一份物理资源,因此会相互干扰,造成应用性能的下降。
基于这两点已经有很多的工作了,但是它们大多都是离线的并且非常依赖于详细的应用特征并且很难扩展到大规模的集群上来。
本文作者提出Paragon——数据中心在线可扩展的应用调度器,它的主要特性就是可以非常快和精确地对一个从未见过的应用进行分类,并针对集群的异构性和干扰对其进行作业放置,Paragon会在集群中找到最适合应用运行的机器,并对该应用的出现会对该机器上其他应用造成多大的干扰和该应用将承受多大的干扰进行分析,来达到最好的效果。 Paragon的分类引擎从之前调度的应用信息中提取数据并进行离线训练,可以很快对新提交的应用和之前调度过的应用进行偏好分析,根据分类信息调度器会使用贪心算法将作业进行调度。