【标题】
Enhancing Reliability and Response Times via Replication in Computing Clusters
【作者】
Zhan Qiu and Juan F. Perez, Imperial College London
【来源】
INFOCOM 2015
【why】
计算集群中含有成千上万节点,request failure和server failure等因素影响服务可靠性,随着资源规模增大和复杂度增加,可靠性不断下降。
当前研究主要采用重调度和冗余策略,前者损失时间太长,后者成本代价太高。
当前集群的资源利用率并不高,大部分数据中心服务器平均利用率才18%,如何进行任务调度,提高系统可靠性的同时降低响应时间
【how】
提出concurrent replication with canceling方法,所有任务采用主备双执行,其中一份执行成果,立即取消另外一份执行
【不足】
assumption future work
【对本文评价】
【相关方法或论文】
【重点提示】
【其它】