【本文作者:擎创科技资深产品专家 布博士】
在近几年的智能运维发展中,运维智能体已经是一个越来越为人熟知的词。而“智能运维助手”,也是成为大模型赋能AIOps的新的事物。
在现代企业中,智能运维助手是保证业务连续性和满足客户需求的关键因素之一。本文将深入探讨如何通过基于自然语言的意图识别来提高智能运维助手在应急协作中的效率和速度。
这篇文章分为两个部分,这是第一部分:
-
在应急场景下,智能运维助手的主要应用方向
-
实时状态汇总
-
故障知识库快速匹配
-
执行登录主机获取日志文件任务
-
执行日志文件解析任务
-
根据指挥官需求调整人力
-
查询故障影响范围
-
提供初步诊断建议
-
实时监控告警并更新最新状态
-
故障事件回顾和报告生成
-
脚本生成支持...
-
应急场景下,智能运维助手的应用方向
注意:如上图所示,红色框的部分是我们本次要重点讲解的,并且也已经完成。而灰色的部分是我个人认为可以做,但是没有实践的。
基于自然语言的意图识别
在应急协作场景中,智能运维助理的首要任务是解决意图识别问题。聊天室中发出的信息可能是指令或告警,这两者的处理方式完全不同。指令可能要求智能助理查询状态、指标或日志,而告警则意味着需要紧急解决的故障产生了新的异常信号。对于这种异常信号,智能助理需要快速在知识库中查找该信号的代码、可能的原因,并提供给人指导的解决方案 。
实时状态汇总
在应急协作场景中,智能运维助理的另一个重要任务是实时状态汇总。通过汇总所有相关系统、服务和组件的当前状态,智能助理可以提供一个全面的视图,帮助指挥官和团队成员了解当前的系统运行状况。
当应急指挥官或数据中心领导需要了解当前的系统运行状况时,智能运维助理需要能够快速汇总所有相关系统、服务和组件的当前状态,哪些问题已解决、哪些问题正在解决中、谁在解决、哪些问题未解决,提供给指挥官或领导。
故障知识库快速匹配
智能运维助理需要具备快速匹配故障知识库的能力。通过预先定义的故障知识库,智能助理可以快速定位和解决特定类型的故障。例如,当收到一个告警信号时,智能助理可以快速在知识库中查找该信号的代码、可能的原因,并提供给人指导的解决方案。
执行指令
在应急场景下,智能运维助手执行指令的能力也是重要的。通过自然语言意图识别能力,智能助手可以通过类似function calling的能力,帮助人类执行各种指令,例如:
-
执行登录主机获取日志文件任务
-
执行日志文件解析任务
-
根据指挥官需求将相关责任人加入到应急过程中...
查询故障影响范围
故障发生后,智能运维助手需要能够查询故障影响范围,以提供给应急指挥官或相关的责任人能够快速了解故障的影响范围,做出合适的应急决策,例如:
-
故障影响的系统
-
故障影响的业务
-
故障影响的区域
-
故障影响的客户
-
故障影响的指标
-
故障影响的日志
-
故障影响的配置
提供初步诊断建议
故障发生后,智能运维助手需要能够提供初步诊断建议,以提供给应急指挥官或相关的责任人能够快速了解故障的原因,做出合适的应急决策,例如:
-
故障的可能原因
-
故障的解决方案
-
故障的解决方案的实施步骤
-
故障的解决方案的实施时间
-
故障的解决方案的实施人
实时监控告警并更新最新状态
故障发生后,智能运维助手需要能够实时监控告警并更新最新状态,以提供给应急指挥官或相关的责任人能够快速了解故障的最新状态,做出合适的应急决策,例如:
-
故障的最新状态
-
故障中发生了哪些新的告警
-
故障系统日志有哪些需要关注的
-
哪些问题在不断发生恶化
-
哪些已经恢复,不再需要关注
故障事件回顾和报告生成
故障发生后,智能运维助手需要能够生成故障事件回顾和总结报告,以提供给应急指挥官或相关的责任人快速出具总结报告,例如:
-
故障概述
-
故障的详细情况
-
定位分析
-
故障的解决过程及时间线
-
影响评估
-
改进措施及预防方案
-
经验教训
-
故障对运维过程的优化与启示
脚本生成支持
在应急场景下,智能运维助手需要能够生成脚本,以提供给应急指挥官或相关的责任人快速执行,例如:
-
生成脚本,用于登录主机获取日志文件
-
生成脚本,用于解析日志文件
-
生成脚本,用于主机或服务重启...
———— 未完待续 ————