故障自愈
介绍
故障自愈是行业领先的"故障自动化处理"解决方案,提升企业的服务可用性和降低故障处理的人力投入,实现故障自愈从"人工处理"到"无人值守"的变革!
通过自动化处理节省人力投入,通过预定的恢复流程让恢复过程更可靠,通过并行分析达到更快的故障定位和恢复。
一句话概括:实时发现告警,预诊断分析,自动恢复故障,并打通周边系统实现整个流程的闭环。
自愈套餐
故障自愈收到告警后,执行的动作,比如作业套餐。
自愈方案
关联告警 和 自愈套餐的策略
产品架构
故障自愈集成行业开源监控产品或以REST API方式获取企业监控产品的告警,匹配告警设置的执行套餐,并执行实现告警自动化处理,同时通过告警收敛功能解决“告警风暴”的痛点。
图1. 故障自愈产品架构图
特点及优势
图1. 故障自愈核心功能图
-
1.获取告警:告警源集成监控模块、4款主流开源监控产品Zabbix、OpenFalcon、Nagios、Icinga,及AWS、邮件的告警接入,更能通过REST API 拉取、推送告警。
-
2.告警处理:故障处理支持作业平台、标准运维流程
-
3.告警收敛和防御:系统预定收敛和防御规则,对异常告警事件进行收敛,更能通过收敛审批功能对异常的执行做审批。
-
4.支持组合套餐,把自定义自愈套餐通过FTA(故障树分析)处理流程,组装成解决复杂场景的组合套餐。
-
5.健康诊断,根据系统内置的健康诊断策略,周期性回溯异常事件,并通过邮件方式推送出来。
-
6.预警自愈,是健康诊断功能的延伸,把健康诊断发现的问题通过自愈方案解决,完成异常事件的闭环。
-
7.操作审计,感知故障自愈的每一次改动,确保运营安全,问题可回溯
-
8.丰富的处理套餐:除支持作业平台、标准运维外,还支持快捷套餐类(磁盘清理、汇总、检测CPU使用率TOP10等)、组合套餐类(获取故障机备机、通知、审批等)
-
9.自愈小助手:分析告警和套餐关联,决策推荐自愈方案方案,降低配置成本。
引领行业故障处理新潮流
故障自愈重新定义故障处理流程,在运维领域系较早提出故障自动化理念并落地为产品。
事件处理流程引擎,实现无人值守自愈
获取监控告警发现异常,预诊断分析,调用预定义的处理流程,实现故障无干预自动处理
图1. 故障自愈故障处理概要图
为企业节省人力及降低MTTR
故障自愈通过自动化的故障处理流程,节省运维处理故障的人力成本。让运维把工作专注到企业服务的用户体验优化、数据分析,而不只是基础运维服务。
自动化的故障处理流程,减少人工处理环节耗费的时间,降低故障处理时长。实现故障的无人值守,让故障处理不再依赖于人,提升企业IT服务的可用性 。
图1. 故障自愈核心价值
功能介绍
图1. 故障自愈首页面板
告警自动处理
将告警接入自愈套餐后,告警将匹配配置的处理套餐自动执行,无需人工干预。
告警收敛
针对满足收敛条件的告警,汇总为一个告警事件,或进行异常防御审批。
健康诊断
依托于故障处理的经验,集成常见故障隐患的专家配置库,回溯过往发生的告警单据来提前发现问题。 图1. 健康诊断
不仅如此,还可以通过预警自愈页面配置诊断建议和处理套餐,提前自动规避风险。 图2. 预警自愈
集成主流监控产品
告警源集成监控模块、4款主流开源监控产品Zabbix、OpenFalcon、Nagios、Icinga,及AWS、邮件的告警接入,更能通过REST API 拉取、推送告警。
图1. 集成主流监控产品
组合套餐
依托于故障树分析(FTA : Fault Tree Analysis)理念,将单个原子套餐组装为组合套餐,根据父节点的执行结果(成功还是失败)来确定子节点的执行分支,以解决复杂场景的故障处理和分析。
图1. 组合套餐的设置页面
图2. 执行结果详情
利用组合套餐可以实现复杂的运维场景。
自愈小助手之套餐推荐
依托于推荐模型,自动关联告警和处理套餐,减少人工配置成本。
图1. 自愈小助手之套餐推荐
启用推荐的套餐后,可以在接入自愈页面的方案来源列找到系统推荐的套餐. 图2. 接入自愈列表