大模型实践 | 为慧眼智能可观测平台插上ChatInsight的翅膀

最新推荐文章于 2025-01-17 09:49:25 发布

网易杭研

最新推荐文章于 2025-01-17 09:49:25 发布

阅读量1k

点赞数 27

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/NetEaseResearch/article/details/135028287

版权

ChatInsight是网易杭州研究院在慧眼智能可观测平台上的创新，通过自然语言交互提升数据共享和经验积累效率。它解决了告警处理、故障定位的效率问题，利用AIGC技术编排可观测数据，降低成本。目前已经在多个网易业务中落地，并集成到云原生稳定性保障平台。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

ChatInsight是网易杭州研究院（简称杭研）在慧眼智能可观测平台引入大模型开发的创新功能，支持通过自然语言交互实现高效数据共享与经验积累，以提高业务日常稳保工作效率。ChatInsight目前已在网易云音乐、新闻、智企、严选、有道等业务落地，并已作为网易数帆Cloud Native Copilot的一项核心能力，集成了到云原生稳定性保障平台中。

在本文中，杭研技术专家青龙解读了ChatInsight的产品设计、实现原理及未来规划，并分享了网易公司沉淀的AIGC工程化实践经验，为读者更好地理解和应用AIGC技术提供参考。

ChatInsight研发背景

在网易杭州研究院，大模型和AIGC技术已有广泛应用，如网易数帆有数ChatBI和CodeWave智能开发平台，就是知识增强领域大模型技术在数据分析、软件开发领域的典型应用。而在运维领域，引入AIGC的一项前沿创新就是慧眼ChatInsight。

慧眼是杭研打造的一个智能可观测平台，为网易集团提供云原生环境下基础设施和业务的统一观测。ChatInsight定位为慧眼智能可观测平台的自然语言交互入口，旨在利用AIGC技术手段，实现观测经验与数据的高效共享与积累，从而达到提高业务稳定性保障的目的。

在业务稳定性保障过程中，告警处理、问题定位和日常运维都依赖可观测数据作为决策支持。基于AIGC迅速且智能地获取所需的可观测数据，能够克服传统稳定性保障方案的挑战，缩短人工排查时间，提高工作效率。

传统的稳定性保障过程中存在三大问题：

1. 告警处理效率不高；

2. 故障定位协作效率有待提升；

3. 经验积累方式不规范，导致经验应用效率较低。

告警处理

在业务稳定性保障过程中，处理各种告警的一般方式包括：

1. 开发与运维人员根据个人经验或临时查阅FAQ；

2. 登录告警平台查看告警信息，接着登录APM查看业务指标和拓扑信息，再登录到哨兵业务所在机器的指标，登录到业务日志系统查看业务日志，甚至登录到机器查看系统日志和进程指标等。在经过这些步骤后，问题未必能解决，甚至需要将问题转交给其他同事，如此循环。

整个过程效率低下，主要表现为：

1. 多平台导致频繁切换，查看不同数据源耗时；

2. 告警处理过程依赖个人经验和FAQ积累，由于个人经验差异较大，加上FAQ与数据相互隔离，导致处理流程不规范且难以预测。

故障定位

故障定位依赖应用、基础设施、中间件等许多不同来源的大量可观测数据，快速获取这些数据作为故障定位的支撑，需要不断的进行切换数据上下文甚至平台上下文，这就导致效率低下。

故障定位过程中涉及多人协作时，已发现的现象和结论往往难以有效传递给后来参与者，导致上下文信息缺失。为了弥补这一不足，人员之间需要进行大量沟通，消耗更多时间和精力。

经验沉淀

目前，经验沉淀通常以团队为单位进行，沉淀方式各异，主要采用文档记录。然而，文档与可观测平台数据缺乏联动，导致沉淀经验在重复使用过程中无法直接借助数据进行决策支持，降低了效率。此外，在处理告警的过程中，还需要根据告警信息检索相应的FAQ处理文档，进一步影响处理效率。

解决思路分析

可执行FAQ<

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

网易杭研 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。