软件工程3.0实践之路(八):LLM驱动运维

软件作为一种服务存在(SaaS),软件需要7x24不间断地、可靠地运行,运维的重要性不言而喻, 但由于系统的复杂性,运维工作一直面临巨大挑战。例如,去年国内云服务就发生了几期比较大的质量事故,见 语雀崩了、阿里云崩,阿里崩完、滴滴崩......

今天,大模型驱动运维,运维的工作是不是能得到极大的改善?按照清华大学清华裴丹老师的话(详见:大模型时代的AIOps)说:“从价值的角度,到了大模型时代AIOps工具可以说人话了”、“在大模型时代,已有的运维工具都可以被赋能,通过自然语言与人进行交流,通过大语言模型在决策者与智能运维工具之间进行翻译,经过几轮交流,决策者做出了决策。”

图片

说起“大模型驱动运维”,先需要说明一下,它不同于另一个概念“LLMOps”。LLMOps是MLOps的延伸,是指运用一组流程、方法、工具和优秀实践来训练、验证、部署和维护LLM(即管理 LLM 的生命周期)。而本文说的主题“大模型驱动运维”,是将大语言模型(LLM)技术应用于各种系统的运维工作中,即先构建一个“运维大模型”,然后用这个大模型来跟踪系统的运行状态、预报或发现系统运行的异常问题。

大模型驱动运维,主要体现在下面几个方面:

  • 异常检测:基于运维大模型自动地对日志进行实时分析,发现系统运行的异常状态;

  • 根因定位:发现异常状态后,基于运维大模型可以对未知故障进行推理,定位问题,并补充知识库;

  • 故障分类:基于运维大模型自动地对故障进行分类,有助于后续的复盘与优化;

  • 故障报告生成:在推理得到故障根因和故障分类后,利用LLM自动生成故障诊断报告;

  • 故障恢复:在推理得到故障根因和故障分类后,运维大模型可以推荐合适的恢复·措施,经运维人员确认后采取措施(并补充知识库),从而快速恢复系统正常状态;

  • 运维脚本生成:基于运维人员对任务的描述生成运维脚本,将复杂脚本的调试开发时间从几小时缩短到几分钟;

  • 运维计划生成:LLM解析用户运维需求,动态生成可执行的自然语言的工作流;

  • 运维可视化:通过自然语言交互,自动执行简易的数据查询/分析,对故障数据进行可视化呈现;

  • 运维咨询:基于LLM和本地知识库的融合,快速、准确地回答运维人员的任何问题。

就“大模型驱动运维”,我们可以从两个方面给出一些例证:一方面是工业界在这方面取得的成功案例,另方面是学术界研究的成果。

~ 工业界成功案例 ~

先来说说工业界的成功案例,这更让人信服。据我了解,一些互联网公司、大的运营商、大的银行和券商等在这方面都有较大投入,取得了比较好的进展。

案例1: 京东运维大模型 Themis-GPT

图片

图片

图片

案例2: 阿里基于LLM的完整-自闭环故障预测体系

图片

3. 字节跳动基于多智能体的SRE-Copilot

图片

图片

  • 8
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值