AIOps需要大模型的支持,但是训练一个业务专用的大模型并不是一件理想的任务,所以利用开源的通用大模型才是王道。
我们可以利用AI大模型的理解能力来帮助分析和解释Kubernetes(K8s)的日志。通过提供日志中可能存在问题的部分,AI模型可以帮助我们识别出异常情况、错误代码或其他潜在的故障原因。
这个过程通常包括以下步骤:
- 提取日志:从K8s中提取出需要分析的日志。
- 筛选日志:根据需求,筛选出可能存在问题的日志部分,这里会涉及到相关的运维经验,需要推断哪些日志是可能有潜在故障的。
- 输入到AI模型:将筛选出的日志部分输入到AI模型中进行分析。
- 解释结果:AI模型会根据其学习到的知识和模式来识别和解释日志中的问题。
- 对结果自动分类:每一类故障都应该对应一套完整的故障恢复/解决/报警方案。
- 处理故障:对未知故障报警,人工干预;有对应方案的故障直接自动恢复。
虽然AI模型可以提供有价值的见解和帮助,但它们并不是完美的。因此,最终的故障排除和解决仍需要人类专业知识和判断。
这里实际上我们只使用了AI作为中间的信息提取和判断,源头的供应以及末尾的处理仍然依赖人类的经验和专业知识。