直播回顾 | 告警全生命周期管理的思路与落地实践

嘉为蓝鲸

已于 2023-04-03 10:08:37 修改

阅读量315

点赞数

文章标签： IT 告警 Powered by 金山文档

于 2023-03-13 17:41:21 首次发布

本文链接：https://blog.csdn.net/weixin_42556618/article/details/129500344

版权

在上一次的直播中，我们介绍了监控体系：可观测指标管理体系建设落地及插件功能设计和生态打造。本次主要和大家分享可观测领域内，告警事件管理系统的设计思路与落地实践。

企业告警管理面临的挑战

在数字化转型过程中，很多企业已经建设了多套的监控系统，覆盖服务器、网络、存储、日志等等。但有了监控却并不能高枕无忧，在我们服务的多个企业中，监控系统检测并触发告警后，在告警事件管理过程中，各人员角色普遍存在一些亟待解决的痛点问题。

如下表是比较典型的中各角色的痛点和期望：

通过广泛地调研收集客户的告警管理现状和诉求，我们归纳总结了在企业在达成高效的告警管理的目标时，所面临的通用问题：

告警散落不标准。各类告警散落在相互隔离的多个监控系统中，没有统一的内容格式规范，信息不全面，可读性很低，无法直观进行告警判断；

告警噪音多。各类监控系统设置的固定阈值标准不一，或者同一故障引发不同系统同时告警，造成大量的误报、漏报和重复告警；

没有全局视图。出现告警后，无法直观了解应用系统和对象模型的告警整体情况和关联影响范围；

缺乏工具联动。告警处理人工干预过多，自动处理少，告警流转效率低；过程缺少追踪，处理经验难沉淀。

基于这些挑战诉求，我们去设计打造了优秀的告警管理系统，落地企业管理实践中，切实解决问题。

产品设计：贯穿告警事件全生命周期管理

告警管理系统，应以事件为中心，从将各监控系统的告警集中接入开始，通过插件清洗和告警丰富完成接入告警的标准化、再通过去重、防抖、关联聚合、屏蔽等多种降噪方式分析、处理四个层面进行建设，外部联动CMDB进行告警信息的丰富；联动工单系统，实现告警驱动工单推进事件管理；联动自动化工具，实现告警自愈处理降低业务损失。

实现从告警产生-接入-丰富-降噪-自动处理（分派+转工单/自愈）全生命周期闭环管理，快速对故障进行有效处置，保障业务稳定运行。