ChatInsight是网易杭州研究院(简称杭研)在慧眼智能可观测平台引入大模型开发的创新功能,支持通过自然语言交互实现高效数据共享与经验积累,以提高业务日常稳保工作效率。ChatInsight目前已在网易云音乐、新闻、智企、严选、有道等业务落地,并已作为网易数帆Cloud Native Copilot的一项核心能力,集成了到云原生稳定性保障平台中。
在本文中,杭研技术专家青龙解读了ChatInsight的产品设计、实现原理及未来规划,并分享了网易公司沉淀的AIGC工程化实践经验,为读者更好地理解和应用AIGC技术提供参考。
ChatInsight研发背景
在网易杭州研究院,大模型和AIGC技术已有广泛应用,如网易数帆有数ChatBI和CodeWave智能开发平台,就是知识增强领域大模型技术在数据分析、软件开发领域的典型应用。而在运维领域,引入AIGC的一项前沿创新就是慧眼ChatInsight。
慧眼是杭研打造的一个智能可观测平台,为网易集团提供云原生环境下基础设施和业务的统一观测。ChatInsight定位为慧眼智能可观测平台的自然语言交互入口,旨在利用AIGC技术手段,实现观测经验与数据的高效共享与积累,从而达到提高业务稳定性保障的目的。
在业务稳定性保障过程中,告警处理、问题定位和日常运维都依赖可观测数据作为决策支持。基于AIGC迅速且智能地获取所需的可观测数据,能够克服传统稳定性保障方案的挑战,缩短人工排查时间,提高工作效率。
传统的稳定性保障过程中存在三大问题:
1. 告警处理效率不高;
2. 故障定位协作效率有待提升;
3. 经验积累方式不规范,导致经验应用效率较低。
告警处理
在业务稳定性保障过程中,处理各种告警的一般方式包括:
1. 开发与运维人员根据个人经验或临时查阅FAQ;
2. 登录告警平台查看告警信息,接着登录APM查看业务指标和拓扑信息,再登录到哨兵业务所在机器的指标,登录到业务日志系统查看业务日志,甚至登录到机器查看系统日志和进程指标等。在经过这些步骤后,问题未必能解决,甚至需要将问题转交给其他同事,如此循环。
整个过程效率低下,主要表现为:
1. 多平台导致频繁切换,查看不同数据源耗时;
2. 告警处理过程依赖个人经验和FAQ积累,由于个人经验差异较大,加上FAQ与数据相互隔离,导致处理流程不规范且难以预测。
故障定位
故障定位依赖应用、基础设施、中间件等许多不同来源的大量可观测数据,快速获取这些数据作为故障定位的支撑,需要不断的进行切换数据上下文甚至平台上下文,这就导致效率低下。
故障定位过程中涉及多人协作时,已发现的现象和结论往往难以有效传递给后来参与者,导致上下文信息缺失。为了弥补这一不足,人员之间需要进行大量沟通,消耗更多时间和精力。
经验沉淀
目前,经验沉淀通常以团队为单位进行,沉淀方式各异,主要采用文档记录。然而,文档与可观测平台数据缺乏联动,导致沉淀经验在重复使用过程中无法直接借助数据进行决策支持,降低了效率。此外,在处理告警的过程中,还需要根据告警信息检索相应的FAQ处理文档,进一步影响处理效率。