软件工程3.0实践之路(八)：LLM驱动运维

最新推荐文章于 2024-08-08 16:15:46 发布

wangchen900705

最新推荐文章于 2024-08-08 16:15:46 发布

阅读量781

点赞数 8

文章标签：运维

本文链接：https://blog.csdn.net/wangchen900705/article/details/139264391

版权

软件作为一种服务存在（SaaS），软件需要7x24不间断地、可靠地运行，运维的重要性不言而喻，但由于系统的复杂性，运维工作一直面临巨大挑战。例如，去年国内云服务就发生了几期比较大的质量事故，见语雀崩了、阿里云崩，阿里崩完、滴滴崩......

今天，大模型驱动运维，运维的工作是不是能得到极大的改善？按照清华大学清华裴丹老师的话（详见：大模型时代的AIOps）说：“从价值的角度，到了大模型时代AIOps工具可以说人话了”、“在大模型时代，已有的运维工具都可以被赋能，通过自然语言与人进行交流，通过大语言模型在决策者与智能运维工具之间进行翻译，经过几轮交流，决策者做出了决策。”

说起“大模型驱动运维”，先需要说明一下，它不同于另一个概念“LLMOps”。LLMOps是MLOps的延伸，是指运用一组流程、方法、工具和优秀实践来训练、验证、部署和维护LLM（即管理 LLM 的生命周期）。而本文说的主题“大模型驱动运维”，是将大语言模型（LLM）技术应用于各种系统的运维工作中，即先构建一个“运维大模型”，然后用这个大模型来跟踪系统的运行状态、预报或发现系统运行的异常问题。

大模型驱动运维，主要体现在下面几个方面：

异常检测：基于运维大模型自动地对日志进行实时分析，发现系统运行的异常状态；
根因定位：发现异常状态后，基于运维大模型可以对未知故障进行推理，定位问题，并补充知识库；
故障分类：基于运维大模型自动地对故障进行分类，有助于后续的复盘与优化；
故障报告生成：在推理得到故障根因和故障分类后，利用LLM自动生成故障诊断报告；
故障恢复：在推理得到故障根因和故障分类后，运维大模型可以推荐合适的恢复·措施，经运维人员确认后采取措施（并补充知识库），从而快速恢复系统正常状态；
运维脚本生成：基于运维人员对任务的描述生成运维脚本，将复杂脚本的调试开发时间从几小时缩短到几分钟；
运维计划生成：LLM解析用户运维需求，动态生成可执行的自然语言的工作流；
运维可视化：通过自然语言交互，自动执行简易的数据查询/分析，对故障数据进行可视化呈现；
运维咨询：基于LLM和本地知识库的融合，快速、准确地回答运维人员的任何问题。

就“大模型驱动运维”，我们可以从两个方面给出一些例证：一方面是工业界在这方面取得的成功案例，另方面是学术界研究的成果。

～工业界成功案例～

先来说说工业界的成功案例，这更让人信服。据我了解，一些互联网公司、大的运营商、大的银行和券商等在这方面都有较大投入，取得了比较好的进展。

案例1: 京东运维大模型 Themis-GPT

案例2: 阿里基于LLM的完整-自闭环故障预测体系

3. 字节跳动基于多智能体的SRE-Copilot

wangchen900705

关注

8
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
软件工程3.0实践之路(八)：LLM驱动运维

说：“从价值的角度，到了大模型时代AIOps工具可以说人话了”、“在大模型时代，已有的运维工具都可以被赋能，通过自然语言与人进行交流，通过大语言模型在决策者与智能运维工具之间进行翻译，经过几轮交流，决策者做出了决策。软件作为一种服务存在（SaaS），软件需要7x24不间断地、可靠地运行，运维的重要性不言而喻，但由于系统的复杂性，运维工作一直面临巨大挑战。：在推理得到故障根因和故障分类后，运维大模型可以推荐合适的恢复·措施，经运维人员确认后采取措施（并补充知识库），从而快速恢复系统正常状态；
复制链接

扫一扫