直播回顾 | 告警全生命周期管理的思路与落地实践

在上一次的直播中,我们介绍了监控体系:可观测指标管理体系建设落地及插件功能设计和生态打造。本次主要和大家分享可观测领域内,告警事件管理系统的设计思路与落地实践。

企业告警管理面临的挑战

在数字化转型过程中,很多企业已经建设了多套的监控系统,覆盖服务器、网络、存储、日志等等。但有了监控却并不能高枕无忧,在我们服务的多个企业中,监控系统检测并触发告警后,在告警事件管理过程中,各人员角色普遍存在一些亟待解决的痛点问题。

如下表是比较典型的中各角色的痛点和期望:

通过广泛地调研收集客户的告警管理现状和诉求,我们归纳总结了在企业在达成高效的告警管理的目标时,所面临的通用问题:

告警散落不标准。各类告警散落在相互隔离的多个监控系统中,没有统一的内容格式规范,信息不全面,可读性很低,无法直观进行告警判断;

告警噪音多。各类监控系统设置的固定阈值标准不一,或者同一故障引发不同系统同时告警,造成大量的误报、漏报和重复告警;

没有全局视图。出现告警后,无法直观了解应用系统和对象模型的告警整体情况和关联影响范围;

缺乏工具联动。告警处理人工干预过多,自动处理少,告警流转效率低;过程缺少追踪,处理经验难沉淀。

基于这些挑战诉求,我们去设计打造了优秀的告警管理系统,落地企业管理实践中,切实解决问题。

产品设计:贯穿告警事件全生命周期管理

告警管理系统,应以事件为中心,从将各监控系统的告警集中接入开始,通过插件清洗和告警丰富完成接入告警的标准化、再通过去重、防抖、关联聚合、屏蔽等多种降噪方式分析、处理四个层面进行建设,外部联动CMDB进行告警信息的丰富;联动工单系统,实现告警驱动工单推进事件管理;联动自动化工具,实现告警自愈处理降低业务损失。

实现从告警产生-接入-丰富-降噪-自动处理(分派+转工单/自愈)全生命周期闭环管理,快速对故障进行有效处置,保障业务稳定运行。

建设落地实践

明确了以事件为中心进行告警的全生命周期管理这一思路后,我们将具体落地实施分为了规划设计、告警接入和标准化、告警压缩降噪、告警通知和处理、告警管理运营改进,一共5个步骤。以最终实现“快速响应和解决故障,提升无故障间隔时间,减少故障发生率和业务影响范围”这一告警管理的根本目标。

1、规划设计

规划设计以“事件”和“数据”双核驱动,规划设计告警管理体系;整合现有监控工具,统一告警策略标准和统一告警接入。

一般来说,大约有如下几点需要考虑:

● 告警全量汇聚:归总企业所用的各类监控系统,制定统一结构、高可读性的告警信息格式,让各系统中内容格式各异的告警全量集中,解放运维人员追踪维护多个系统的麻烦,统一通过一个告警管理系统来查看和管理告警事件。

● 告警压缩降噪:梳理各运维工程师常见的“无效告警”如重复告警、维护期告警、相同负责人的关联告警、抖动指标告警(毛刺告警)等,对应制定合理的告警降噪策略,帮助运维人员在有限的时间范围内快速、精准地筛选出所有的,真正需要关注或人工处理的告警。

● 精准有序分派:通过收敛策略、分派规则,将降噪后的有效告警事件,通过各类通知渠道,精准通知给指定运维人员,通过重复通知或升级通知保障通知不遗漏、并记录每个用户的MTTA、MTTR,进行人员考核,持续运营改进。

● 告警驱动工单:与工单系统集成,按需实现告警自动/手动转工单,如关键业务、致命监控告警等处理过程复杂、或恢复操作风险较高的告警全开单。

● 告警自愈处理:联动自动化运维系统,通

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值