[ 本文作者:擎创科技产品专家 布博士。 ]
本案例来自于大型券商企业。
上一篇:AIOps案例 | AI能替代人工进行告警分析吗?(一 告警模型的建立)
03 告警关联分析模型 产品化
来百度APP畅享高清图片
整个告警辨析中心产品我们划分成了两个主要的部分:
-
标准版:对标竞争对手的统一告警管理平台,定位在解决告警信息的集成接入、标准化、过滤、维护期管理、告警压缩降噪、告警通知等能力。
-
高级版:定位为告警的智能分析及处置平台,主要完成分析模型构建、告警的智能分析、处置、对处置结果的优化总结和回顾,而告警的关联分析我们定位为高级版中的一部分。在未来的版本规划中,我们将实现对整个过程的在线化和产品化,如下图所示:
-
-
接入告警:完成对不同监控源告警的接入。
-
数据转换处理:按算法的要求,由产品自身完成对告警数据的在线转换处理,并生成算法所需要的输入数据。
-
算法进行关联分析:算法在线接收转换处理后的告警数据,定期对告警数据进行关联分析。
-
生成关联分析结果:算法生成关联分析结果。
-
在线评审:针对生成的结果,数据科学家和运维专家可以在线对产生的结果进行审核。
-
评审结果规则化:针对评审后的结果,进行总结和归纳,生成关联场景的专家规则。
-
生成关联场景:在线接收告警之后,通过关联场景的专家规则进行匹配,最终生成关联场景,运维工程师可以在告警工作台看到关联之后的告警并进行处置。
-
04 分析结果报告
本次项目的目标是对一头部券商客户的“核心业务系统”在过去6个月内产生的33.6万条历史告警数据进行关联分析。通过5轮迭代,我们最终得到了22条关联模式结果,并由数据科学家筛选出了13条有效结果提交给客户方的运维专家评审。客户方对我们的工作给出了以下反馈:
-
提交的评审记录大部分基本满足了预期
-
已指示现场项目组同学开始投产
分析结果的全部22条告警关联模式结果如下图所示:
上图中的”600000116”这些数字代表的是告警辨析中心中告警内容模板ID,在对该券商的数据集进行分析时,我们发现 大量告警的指标为空值,因此我们在后续的告警关联分析挖掘中采用template_id(告警内容模板ID,这是告警辨析产品 独有的一个能力)。
挖掘结果内容包括premise - 前驱节点、conclusion - 后继节点、support - 支持度、confidence - 置信度、lift - 提升度信息。
实战中,下面一个组合,{600000116,6000001494,600000906}是告警辨析产品对告警内容进行归纳之后,生成的告警关联模式评审结果页,在评审阶段需要转换为如下的模板信息以及告警时段的告警列表,才能够有效协助运维专家对告警关联分析结果进行有效评审。如下图产品产出之结果的评审界面所示:
-
接入告警:完成对不同监控源告警的接入。
-
数据转换处理:按算法的要求,由产品自身完成对告警数据的在线转换处理,并生成算法所需要的输入数据。
-
算法进行关联分析:算法在线接收转换处理后的告警数据,定期对告警数据进行关联分析。
-
生成关联分析结果:算法生成关联分析结果。
-
在线评审:针对生成的结果,数据科学家和运维专家可以在线对产生的结果进行审核。
-
评审结果规则化:针对评审后的结果,进行总结和归纳,生成关联场景的专家规则。
-
生成关联场景:在线接收告警之后,通过关联场景的专家规则进行匹配,最终生成关联场景,运维工程师可以在告警工作台看到关联之后的告警并进行处置。
(未完待续)