大模型实践 | 为慧眼智能可观测平台插上ChatInsight的翅膀

ChatInsight是网易杭州研究院(简称杭研)在慧眼智能可观测平台引入大模型开发的创新功能,支持通过自然语言交互实现高效数据共享与经验积累,以提高业务日常稳保工作效率。ChatInsight目前已在网易云音乐、新闻、智企、严选、有道等业务落地,并已作为网易数帆Cloud Native Copilot的一项核心能力,集成了到云原生稳定性保障平台中。

在本文中,杭研技术专家青龙解读了ChatInsight的产品设计、实现原理及未来规划,并分享了网易公司沉淀的AIGC工程化实践经验,为读者更好地理解和应用AIGC技术提供参考。

1647c5ba4e38521c2fbc50a792a3e16c.png

ChatInsight研发背景

在网易杭州研究院,大模型和AIGC技术已有广泛应用,如网易数帆有数ChatBI和CodeWave智能开发平台,就是知识增强领域大模型技术在数据分析、软件开发领域的典型应用。而在运维领域,引入AIGC的一项前沿创新就是慧眼ChatInsight。

慧眼是杭研打造的一个智能可观测平台,为网易集团提供云原生环境下基础设施和业务的统一观测。ChatInsight定位为慧眼智能可观测平台的自然语言交互入口,旨在利用AIGC技术手段,实现观测经验与数据的高效共享与积累,从而达到提高业务稳定性保障的目的。

在业务稳定性保障过程中,告警处理、问题定位和日常运维都依赖可观测数据作为决策支持。基于AIGC迅速且智能地获取所需的可观测数据,能够克服传统稳定性保障方案的挑战,缩短人工排查时间,提高工作效率

传统的稳定性保障过程中存在三大问题:

1. 告警处理效率不高;

2. 故障定位协作效率有待提升;

3. 经验积累方式不规范,导致经验应用效率较低。

告警处理

在业务稳定性保障过程中,处理各种告警的一般方式包括:

1. 开发与运维人员根据个人经验或临时查阅FAQ;

2. 登录告警平台查看告警信息,接着登录APM查看业务指标和拓扑信息,再登录到哨兵业务所在机器的指标,登录到业务日志系统查看业务日志,甚至登录到机器查看系统日志和进程指标等。在经过这些步骤后,问题未必能解决,甚至需要将问题转交给其他同事,如此循环。

整个过程效率低下,主要表现为:

1. 多平台导致频繁切换,查看不同数据源耗时;

2. 告警处理过程依赖个人经验和FAQ积累,由于个人经验差异较大,加上FAQ与数据相互隔离,导致处理流程不规范且难以预测。

故障定位

故障定位依赖应用、基础设施、中间件等许多不同来源的大量可观测数据,快速获取这些数据作为故障定位的支撑,需要不断的进行切换数据上下文甚至平台上下文,这就导致效率低下。

故障定位过程中涉及多人协作时,已发现的现象和结论往往难以有效传递给后来参与者,导致上下文信息缺失。为了弥补这一不足,人员之间需要进行大量沟通,消耗更多时间和精力。

经验沉淀

目前,经验沉淀通常以团队为单位进行,沉淀方式各异,主要采用文档记录。然而,文档与可观测平台数据缺乏联动,导致沉淀经验在重复使用过程中无法直接借助数据进行决策支持,降低了效率。此外,在处理告警的过程中,还需要根据告警信息检索相应的FAQ处理文档,进一步影响处理效率。

08599a103ff4972ab50aebd7133b4dbc.png

解决思路分析

可执行FAQ<

  • 27
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

网易杭研

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值