甘道夫,一种用于安全部署的端到端分析服务 Gandalf, an end-to-end analytics service for safe deployment

Presentation Video:https://www.usenix.org/conference/nsdi20/presentation/li
PDF:https://pdfs.semanticscholar.org/42b8/082b06dd29875d6649c686e7e2dd9bc4850f.pdf?_ga=2.8865714.624614710.1586328451-1940343127.1583569001

微软的Gandalf没有采用单独的组件日志分别分析每个部署的方法,而是采用自顶向下的方法来全面评估部署的影响。 Gandalf持续检测来自基础设施的监控数据,包括服务级别日志、性能计数器和流程级别事件。该系统将实时决策引擎与批处理引擎相结合,实时引擎监测部署前后一个小时的时间窗口,以检测紧急问题; 批处理引擎分析系统30天内的状况,以检测更复杂、潜在的问题。当检测到系统异常时,Gandalf会使用相关性分析确定它是否是由部署引起。 如果发现部署不正确,它会评估部署的影响范围(如受影响的集群数量、节点、客户数量等),同时自动通知部署引擎停止部署,并向相关团队发出通知和相关的信息用于问题排查。Gandalf不仅检测部署后立即发生的问题,而且还检测部署后数小时甚至数天发生的潜在问题。
在18个多月的测试使用中,Gandalf对于数据层的部署,达到了92.4%的精度,召回率为100%。对于控制层的部署,其准确率达到94.9%,召回率达到99.8%。

简单介绍

Gandalf没有采用单独的组件日志分别分析每个部署的方法,而是采用自顶向下的方法来全面评估部署的影响。 Gandalf持续监视来自基础设施的监控数据,包括服务级别日志、性能计数器和流程级别事件。 当检测到系统异常时,Gandalf会分析它是否由部署引起。 如果发现部署不正确,Gandalf会将其停止。

Gandalf的核心决策逻辑是由异常检测、相关分析和影响评估组成的。 该模型首先从原始数据中检测异常。 然后,它通过时间和空间相关性以及整体排序算法(ensemble ranking algorithm),判断部署是否与检测到的故障高度相关。 最后,使用高斯判别器( Gaussian discriminant classifier)来确定可疑部署所造成的影响是否足以阻止部署。</

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值