优维发布新一代统一告警中心

图片

优维「统一告警中心」

优维正式推出了一个融合故障根因分析、故障应急响应、事件总线、故障统一管理的新一代告警中心。该中心平台的面世,旨在为企业构建数字化运维体系过程中,降低运维成本、提升工作效率,为业务稳定运行保驾护航。

告警/故障智能化

企业IT系统监控的刚性需求

优维发现,在长期的IT系统建设过程中,企业积累了大量的监控信息,但这些数据通常分散在不同的系统中形成信息孤岛,难以进行集中和统一的分析。当前故障的处理主要依赖于人的经验,缺少智能化工具的支持和辅助分析。

一方面,缺少一个高效的告警和故障处理流程,没有明确的责任归属;另一方面,企业希望扩展告警通知的手段,但却受到现有告警系统功能限制。这就导致很多故障只得到临时性的处理,并没有彻底解决问题。

具体来说,企业在故障告警场景面临的痛点:

  • 悬而不决:缺乏有效的告警/故障跟进机制,无责任人,导致很多故障都是临时解决而没有最终解决;

  • 孤岛效应:长期的IT系统建设过程中,形成了各种事件孤岛,无法联合统一分析;

  • 经验主义:故障解决靠人的经验,缺乏有效智能的工具辅助分析,时常盲人摸象;

  • 定位低效:故障排查定位时凭感觉,无法形成标准高效的故障定位方法,严重拖慢处理进度;

  • 非标准化:故障处理过程没有标准化的处理方案,故障应急处理效率和质量不可控;

  • 流程不顺:缺乏标准化故障处理流程,无责任人,导致故障处理零散、碎片化,且处理结果往往不可控;

  • 分散沟通:缺乏统一的故障分析沟通的地方,导致无法有效的沟通和分析的过程信息均散落各地,与分析统计,进而无法有效的治理。

因此急需一个能够帮助客户解决上述问题的统一告警管理平台。

针对以上问题,优维研发一个综合性的统一告警中心,致力于对事件的整个生命周期进行管理,提供一个精确、智能化且闭环的告警解决方案,旨在帮助客户更有效地识别、分析、定位并解决问题,从而提高运维工作的效率。

精准、智能的告警管理平台

简单来说,「统一告警中心」是一个融合了故障管理(包括故障根因分析和应急响应)、事件总线、以及告警中心等功能的综合性的管理平台,

「架 构 概 览」

>> 根因分析技术架构

图片

>> 监控整体技术架构

图片

具体而言,其产品价值主要体现在以下几个方面:

  • 高效:贴合工作流程,打造一、二线的告警/故障视图,形成有效的故障跟进机制,推动故障最终解决;

  • 中心化:基于事件总线,统一接入各种异构事件,清洗联合聚合,避免告警风暴,全方位分析定位;

  • 工具智能化:基于IT数据图谱层级关系及OneID的唯一身份,提供告警根因辅助分析,提升告警定位效率,缩短故障时间;

  • 定位智能化:基于常见的故障场景提供智能分析,帮助企业快速完成故障定位,减少服务故障带来的企业损失;

  • 预案机制:基于特定的故障场景提供常见的故障处理预案,以多种解决方案应对潜在的问题,确保服务快速恢复;

  • 流程化:提供标准化故障处理流程,确保责任到位,沟通高效,最终形成故障处理规范;

  • 集中化:提供统一的故障处理作战室,将信息进行有序的集中化分析,减少沟通成本。

产品功能概览

01

告警规则

  • 一个规则配完所有策略

  • 直观了解告警处理过程

在设定一个规则名称时,如有需要可展开规则描述,在对规则适用的资源类型提供选项的同时提供优先级设定选项,贯通监控目标-告警条件-告警分析-告警通知的告警处理全流程。

图片

02

第三方事件接入

  • 标准化接入事件

  • 事件转换(资源信息加工、重定级)

第三方事件接入是根据配置的策略及规则,对告警事件进行翻译,包括IT资源翻译(关联到CMDB实例)、告警重定级等,形成标准化事件后再写入告警库。继而由告警策略匹配告警事件,进行分组压缩、通知等处理,同步为用户做告警的根因分析打下基础。

图片

03

告警

  • 告警轨迹

  • 相同资源告警分析

  • 影响分析

  • 转单

告警详情提供全面的分析能力,可以了解告警状态(含状态变化)和告警信息,了解告警指标趋势,同时平台提供相同资源告警、影响分析等帮助初步了解告警资源当前告警情况。

平台同时提供对告警的进一步深化处理能力:根因分析、快速屏蔽、转故障工单、跳转告警资源视图,以及可追踪告警处理变化和记录一切跟进操作活动,包含告警状态变化、评论、转单等操作。

图片

04

故障工单

  • 联动的工单处理

  • 关联告警轨迹追踪

  • 根因分析与影响分析

  • 同源故障关联

  • 对接应急预案

进入工单详情,可以完整跟进处理故障工单。平台提供工单详细信息和处理过程信息,更支持基于关联告警的告警动态活动(联动告警轨迹)查询。

平台同时提供同源工单(相同故障的故障工单关联)、影响分析、工作流视图,全面掌控故障处理信息。另外,还可联动平台的应急预案、根因分析的能力,做进一步的故障分析与处理动作。

图片

05

根因分析

  • 传播轨迹

  • 横纵向综合分析(上下游+基础设施)

  • 结合告警、变更、高负载等事件

  • 智能分析结论

提供智能化的资源关联性根因分析,结合资源关系图谱、告警传播轨迹、关联事件分析等进行算法分析,可以直观给用户提供故障根因辅助判断快速定位和解决问题。

图片

  • 12
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值