FluxRank论文背景说明
论文:FluxRank: A Widely-Deployable Framework to Automatically
Localizing Root Cause Machines for Software Service Failure Mitigation
摘要
软件服务的故障直接影响用户体验和服务收入。因此,运维可以在服务所在的每台计算机上监视服务级别的KPI(例如响应时间)和主机级别的KPI(例如CPU使用情况)。当服务失败时,运维必须快速定位根本原因机器,并尽快缓解故障。由于难以获得所需的额外测量数据,因此,故障定位在很大程度上是手动的,非常耗时。
本文介绍了FluxRank,它是一种可广泛部署的框架,可以自动准确地定位根本原因机器,以便可以触发某些操作来减轻服务故障。我们使用来自搜索公司的五个真实服务(具有成千上万台计算机)的历史案例进行评估,结果表明,在70例案例中,有55(66)例的根本原因机器排名第一(前三)。与现有方法相比,FluxRank平均将定位时间减少了80%以上。FluxRank已经在一个互联网服务和六个银行服务运行了三个月,并在59例中正确地定位55例(top1) 。
I. INTRODUCTION
软件服务的故障直接影响用户体验和服务收入[1-3]。 因此,服务运营商可以在服务所基于的每台计算机(例如服务器或虚拟机)上监视服务级别的KPI(关键性能指标)(例如,响应时间)和主机级别的KPI(例