软件作为一种服务存在(SaaS),软件需要7x24不间断地、可靠地运行,运维的重要性不言而喻, 但由于系统的复杂性,运维工作一直面临巨大挑战。例如,去年国内云服务就发生了几期比较大的质量事故,见 语雀崩了、阿里云崩,阿里崩完、滴滴崩......
今天,大模型驱动运维,运维的工作是不是能得到极大的改善?按照清华大学清华裴丹老师的话(详见:大模型时代的AIOps)说:“从价值的角度,到了大模型时代AIOps工具可以说人话了”、“在大模型时代,已有的运维工具都可以被赋能,通过自然语言与人进行交流,通过大语言模型在决策者与智能运维工具之间进行翻译,经过几轮交流,决策者做出了决策。”
说起“大模型驱动运维”,先需要说明一下,它不同于另一个概念“LLMOps”。LLMOps是MLOps的延伸,是指运用一组流程、方法、工具和优秀实践来训练、验证、部署和维护LLM(即管理 LLM 的生命周期)。而本文说的主题“大模型驱动运维”,是将大语言模型(LLM)技术应用于各种系统的运维工作中,即先构建一个“运维大模型”,然后用这个大模型来跟踪系统的运行状态、预报或发现系统运行的异常问题。
大模型驱动运维,主要体现在下面几个方面:
-
异常检测:基于运维大模型自动地对日志进行实时分析,发现系统运行的异常状态;
-
根因定位:发现异常状态后,基于运维大模型可以对未知故障进行推理,定位问题,并补充知识库;
-
故障分类:基于运维大模型自动地对故障进行分类,有助于后续的复盘与优化;
-
故障报告生成:在推理得到故障根因和故障分类后,利用LLM自动生成故障诊断报告;
-
故障恢复:在推理得到故障根因和故障分类后,运维大模型可以推荐合适的恢复·措施,经运维人员确认后采取措施(并补充知识库),从而快速恢复系统正常状态;
-
运维脚本生成:基于运维人员对任务的描述生成运维脚本,将复杂脚本的调试开发时间从几小时缩短到几分钟;
-
运维计划生成:LLM解析用户运维需求,动态生成可执行的自然语言的工作流;
-
运维可视化:通过自然语言交互,自动执行简易的数据查询/分析,对故障数据进行可视化呈现;
-
运维咨询:基于LLM和本地知识库的融合,快速、准确地回答运维人员的任何问题。
就“大模型驱动运维”,我们可以从两个方面给出一些例证:一方面是工业界在这方面取得的成功案例,另方面是学术界研究的成果。
~ 工业界成功案例 ~
先来说说工业界的成功案例,这更让人信服。据我了解,一些互联网公司、大的运营商、大的银行和券商等在这方面都有较大投入,取得了比较好的进展。
案例1: 京东运维大模型 Themis-GPT
案例2: 阿里基于LLM的完整-自闭环故障预测体系