AIOps
文章平均质量分 91
智能运维
清塘荷韵_kathy
打不死的小强
展开
-
甘道夫,一种用于安全部署的端到端分析服务 Gandalf, an end-to-end analytics service for safe deployment
微软的Gandalf没有采用单独的组件日志分别分析每个部署的方法,而是采用自顶向下的方法来全面评估部署的影响。 Gandalf持续检测来自基础设施的监控数据,包括服务级别日志、性能计数器和流程级别事件。该系统将实时决策引擎与批处理引擎相结合,实时引擎监测部署前后一个小时的时间窗口,以检测紧急问题; 批处理引擎分析系统30天内的状况,以检测更复杂、潜在的问题。当检测到系统异常时,Gandalf会使用相关性分析确定它是否是由部署引起。 如果发现部署不正确,它会评估部署的影响范围(如受影响的集群数量、节点、客户数原创 2021-12-04 12:00:01 · 2877 阅读 · 0 评论 -
Identifying Bad Software Changes via Multimodal Anomaly Detection for Online Service Systems
为了识别软件变更中的问题,文章提出了一种叫“SCWarn”的方法,方法的主要思想是利用多模态学习,从异构数据源中识别异常。用商业银行的真实数据进行了试验验证,同时在两个数据集(Train- Ticket [65] and E-commerce [18])进行了实验,该方法的 F1-score 可以达到0.95。服务发布后进行变更检测,现有变更检测工作主要是采用异常检测(或变化点检测)算法来检测部署后业务KPI是否存在异常行为。对于异常检测,主要有针对KPI和日志的异常检测,现有的异常检测算法或工具并非专原创 2021-12-04 11:27:23 · 808 阅读 · 0 评论