企业如何实现良好的告警管理流程?

近些年信息化数字化的浪潮下,企业的IT资产和线上业务的规模迅速增长,而为了维护其稳定性和服务质量,所需耗费的成本、精力也在逐年攀升。

在此背景下,告警治理根本目标就是能够实现快速响应和解决故障,减少故障发生率和业务影响范围,而这一环节中,不可避免地会遇到诸如以下的典型问题:

1)告警散落不标准

在相互隔离的多个监控系统中,散落着没有统一的格式内容规范的各类告警,缺少集中式的管理工具,且告警信息不全面,可读性低。

2)告警噪音多:各监控系统,人工设置固定阈值的标准不一、同一故障可能引发不同系统告警,导致大量的误报、漏报、重复告警,也引起定位问题困难,或责任人明确。

3)缺乏工具联动:告警处理人工干预过多,自动处理少,告警流转效率低,过程缺少追踪,处理经验沉淀难。

4)缺乏全局视图:无法直观了解应用系统&对象模型的告警整体情况和关联影响范围。

……

“工欲善其事,必先利其器。”

企业要实现运转良好的告警管理流程,就需要利用好告警管理工具,从而能够更快更低成本的达成目标。接下来我们就以嘉为鲸眼告警中心为例,从告警管理流程出发进行“顺藤摸瓜”,对过程中的“告警集中汇聚”、“告警信息丰富”、“告警收敛降噪”三个重要典型场景进行拆解分析,分享企业实现良好告警管理流程的经验。

01. 告警集中汇聚:让信息不再是一盘散沙

通常情况下很难有大而全的监控系统能够同时囊括服务器、网络、数据库中间件、存储、应用系统、日志、机房动环等多种IT资产/业务系统的监控诉求。因此,大部分企业都会建设多套监控系统以应对不同的业务需求。但这样的烟囱式架构,存在重复建设、数据难互通、维护成本高等问题

解决问题的第一步,就是将这些分散在不同监控系统中的全量告警汇聚起来,经过流程流转,对外发送统一、明确、及时的告警信息,使得事件得到快速有效的处理。实现集中汇聚告警,需要解决如下要点:

多种灵活汇集方式,统一管理告警

嘉为鲸眼告警中心,支持常规固定格式的REST API推送,还支持通过接口调用获取、数据库拉取、kafka对接、SNMP Trap推送、socket连接等多种方式,能有效满足各类对接需求,使分散在各个监控系统中的告警能够有效汇聚起来,统一管理

低门槛在线拓展能力,保障持续发展

企业在业务发展的同时,也伴随着新的系统的引入和建设,告警系统需要具备拓展性,以应对未来的业务需求。

嘉为鲸眼告警中心,在持续积累对常见监控系统开箱即用对接能力的同时,开放了以python脚本形式的开发独立插件的能力,用户可以在不影响线上系统稳定的情况下,便捷的对接更多的第三方告警源(即监控系统),企业运维人员只需要简单的脚本开发基础,即可具备持续拓展能力,逐步转型运维开发。

个性化定义,清晰展示不同告警

通常情况下,来自不同监控系统的告警信息并不完全一致,在告警信息存在较大差异时,清晰明了的告警内容分级分类展示,能够有效提高运维人员处理告警信息的效率

嘉为鲸眼告警中心,支持用户通过插件文件定义第三方系统的字段与告警中心标准字段的映射、清洗规则,并且支持针对每个告警源设定数量不限的拓展字段,以应对个性化需求。

其中针对告警等级,除了常规的等级映射之外,用户还可自定义拓展更多等级,设定每个等级需要的显示名,标识颜色等。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值