运维效率提升：基于大模型构建高效的运维知识及智能问答平台

drbool

已于 2023-11-19 10:36:33 修改

阅读量2.9k

点赞数 1

文章标签：运维人工智能 AI编程 ai

于 2023-11-19 10:20:30 首次发布

本文链接：https://blog.csdn.net/wangjye99/article/details/134487443

版权

此文背景说明：某客户基于大模型构建了知识及智能问答系统工具，需要在运维领域结合使用场景进行应用，为此，从头到尾声梳理了一遍大模型在运维领域构建知识及智能问答平台的应用场景、技术实现，总结出来供同业一同探索。提升运维效率对于任何组织都至关重要。在追求高效运维的过程中，建立一个高效的知识共享平台是一个关键的步骤。平台为团队成员提供一个集中的地方，共享他们的经验、解决方案和最佳实践。通过知识共享，团队可以更快地解决问题，提高整体效率。本文将探讨如何基于大模型构建这样一个高效的知识收集、知识在不同的运维场景中无缝集成和使用的平台。我们将深入了解大模型技术的应用，以及如何利用大模型相关技术来自动化知识的整理、归类和提取。通过阅读本文，您将获得一份基于运维领域的轻量级的知识及问答系统的解决方案。让我们一起探索如何提升运维效率，构建一个优秀的知识及知识问答平台，为组织数字化转型的成功铺平道路。

以下是本文主要章节内容 ：

运维知识及问答平台对运维效率的重要性和挑战
基于大模型构建高效的知识及智能问答平台解决方案
20分钟构建知识库并在事件管理中应用的案例分享

运维知识及问答平台对运维效率的重要性和挑战

运维效率的提升很大一部分，在于不同角色的运维人员在不同的场景（故障处置、IT服务工作台、应急分析及处置等）中对知识的快速应用，其对提升运维效率非常重要，同时也面临很多挑战。

运维知识及问答平台对运维效率提升的重要性

知识复用：同样的数据库故障，在不同的应用系统下事件管理员需要同样的分析过程和咨询原厂商的过程，难以在事件再次发生的情况下有效识别，并进行知识复用。
专家经验工具化：专家在处理问题时，通常都具有很强的专业背景和经验，这些知识如何有效的工具化，使一线的值班人员在处理简单、重复的问题时，可以在不同的场景直接获得专家的经验知识，快速解决问题，降低成本，让专家专注在更高效地提升客户体验上。
快速问题解决 ：运维知识及智能问答平台可以促进团队随时随地的知识使用和学习需求，使团队可以不断学习和改进运维流程和工具，最终快速问题解决，提高运维效率。

运维知识及智能问答平台面临的挑战

知识有效利用：由于缺乏智能化手段（或成本高昂），老旧的知识库和自动问答系统只能作为存储和搜索数据库，难以有效利用存储在知识库中的知识。这也导致了对知识库的维护意愿不高。
知识运用场景化：使用知识需要登录到知识库系统查询相关知识，而不是在不同的应用场景中。这导致了使用成本较高，例如在事件或应急场景下，是否能够在推送告警事件或应急场景时，同时推荐相关事件的知识或解决方案。
知识反馈流程化：一旦知识进入系统，就很难发现其中的问题，因为无法有效利用。即使发现了问题，也需要经过冗长的流程和填写大量表单，这让大多数人望而却步。在场景化应用中，应该能够在使用流程的各个环节中遇到问题时进行实时且高效的反馈，润物细无声，而非刻意要去做某件事情。

基于大模型构建高效的知识及智能问答平台解决方案

由于最近一年来大模型的智能化能力在知识及智能问答领域的突飞猛进，使得之前力不从心的知识及自动问答系统有了更好的技术手段可以满足人们对其的应用需求。

使用场景说明

知识库系统和智能问答平台系统在运维领域，一定要同运维场景深度结合，才能发挥其最大价值，目前运维领域常见的场景包括：

故障排除与问题解决：
- 告警处置方案知识化：当事件管理员在告警管理工作台处置告警时，其对告警的最终分析处置解决方案可以同步知识库做为故障处置的知识存储。
- 告警产生知识推荐：当事件管理员在告警管理工作台看到新产生的告警时，大模型可以直接推送针对该告警可能的解决方案知识信息，加速分析及处置效率。
应急场景：
- 应急手册：大型企业都会对一些重要的业务系统进行应急演练，并配置相应的应急手册，当出现故障时可以按应急预案进行操作，因此应急手册成为应急场景下的重要知识来源。
- 应急知识推荐：在故障应急状态下，系统本身已经收集了应急的相关数据，这时可以根据应急状态下产生的告警信息由大模型分析之后，推荐应急操作预案、推荐针对单个告警的处置方案、甚至故障的成因也一并推送出来，这时可以辅助应急决策人员进行快速的应急处置和业务恢复。
已知故障：
- 厂商手册：应用研发厂商、技术组件厂商（开源或商业）一般会准备一些快速的故障排查及处置手册，这些会成为运维领域知识的重要组成部分，大模型通过对故障关键字的匹配可以精确找到故障的解决方案。
- 运维专家或SRE工程师对故障的总结：这两个重要的角色在日常运维的过程中针对发现和处置的故障进行总结之后，会形成已知故障场景库，当再次发到类似的故障之后，可以直接推送针对当前故障的分析方法、处置恢复方案，减少专家介入和排查的时间成本。
运维管理规范：也是重要的知识内容，当出现应急或重大事件的场景下，一般运维人员会采用各种方法找捷径去恢复业务，但是捷径代表不可预知的风险，因此在故障场景下，不仅要让当前的处置事件的工程师获取处置事件的知识、建议，同样也要告诉到他针对这类事件的处置要遵守某种操作规范。
工单处置结果：
- 工单处置结果知识化：来自工单系统的对某个工单的处置结果同样也可以做为知识的一部分，当处置完成之后这些信息会同步知识库。
- 工单知识推荐：当某个工程师被分配工单之后，针对工单上所描述之故障的推荐知识也会随之提供出来。<

最低0.47元/天解锁文章