RAG大赛解读（2024 CCF国际AIOps挑战赛·赛题与赛制）

水的精神

已于 2024-05-20 09:32:45 修改

阅读量2.3k

点赞数 3

分类专栏： RAG 文章标签：运维人工智能

于 2024-05-17 13:18:22 首次发布

原文链接：https://mp.weixin.qq.com/s?__biz=MzIyMzcxMDYwNg==&mid=2247493383&idx=1&sn=74cb78c1e23aeef0bc31aec854e6a3d1&chksm=e818bbe6df6f32f0cdbaa8e6f857008cda925d24f5e1b0fac8a08190ed2326bb7501da77ab4d&scene=21&from=industrynews&version=4.1.22.8029&platform=win&nwr_f

版权

RAG 专栏收录该内容

54 篇文章

订阅专栏

2024 CCF国际AIOps挑战赛·赛题与赛制解读

本文根据本届挑战赛程序委员会主席、中国科学院计算机网络信息中心副研究员裴昶华在2024 CCF国际AIOps挑战赛线下宣讲会上为《2024 CCF国际AIOps挑战赛·赛题与赛制》的分享整理而成，全文分为挑战赛背景介绍、题目简介、流程说明和评分规则等部分，最后简要介绍了参考文献，供选手参考。

本届挑战赛背景介绍

众所周知，运维领域本身很多的行业特点，比如存在时序指标、日志、调用等多模态数据，对实时数据的要求比较高，数据之间的依赖关系复杂。例如，下图左下角是一个电商系统的样例，可以看到它的节点依赖情况。另外，还存在着领域知识以及多样化的下游场景。所以，当我们真正去做智能运维的时候就会有很多的小模型，需要解决很多的问题，也面临了很多的挑战。

但是，大模型出现之后给智能运维带来了一些新的不同和新的变化。

应用举例：对根因定位工具进行输入输出增强

第一个特点是博闻强记，指的是所有大模型见过的知识，不论或多或少或生僻，它都能够很好地记住，能够准确的复述回答。

第二个特点是文采飞扬，指的是大模型能够基于以前见过的知识，比较好地迁移到新的场景里，这种zero shot的能力其实对运维来人员来说是非常必要的。

最后，也是大模型最重要的一个能力，我把它总结为浮想联翩，指的是大模型不光能做问答，还能够调用很多的小模型，很多的工具。我们之前在很多年中积累的一些工具，它都能够很好地调用起来。

这里，我们能够看到在“大模型时代的AIOps”有一些怎样的前景。

在国内进行探索的时候，其实国外一些非常著名的智能运维公司，已经开始把大模型技术应用到了智能运维。比如DATADOG，利用大模型去构建自动化的运维工作流，去做问题代码的fix。像dynatrace去做Query2SQL，用大模型去写SQL的语句，做日常的异常预警。splunk是一个日志的公司，它主要用大模型去做日志的异常检测。BigPanda做告警生成。这些不是方案，是已经在它们的公司里真实使用起来的。

大家都很关心在大模型时代AIOps将会怎样发展，这里总结了”大模型时代AIOps”的几个要素：

首先，通识大语言模型做为L0层是必不可少的。

其次，取决于场景里面的数据，如果说数据质量比较好，比较容易获取的话，我们也可以去训练运维的大语言模型，主要是解决开源大模型无法理解私域场景里面的“黑话”。

另外，就是RAG技术。我们可能没有足够的数据去训练模型，那就可以用这种外挂的方式跟大模型结合起来，用大模型的自然语言能力结合私域文档去做知识问答。

此外，前面也提到智能运维领域与语言大模型不同，时序数据其实是非常重要的一个模态。因为就需要时空大模型，或者基于时空小模型的智能体，把它编排起来去做持续的异常检测。

岗位Copilot：如上图是用大模型生成的，虽然大模型不能完全代替人，但是以后的每一个运维人员可能都会辅助一个小的机器人助手。比如做数据库的，可能有一个DBA Copilot，做应用的有Application Copilot。所有这些小的机器人作为岗位智能体，辅助人来提升运维效率，节省人力成本。

最后，人机协同也是必不可少的。在以后的智能运维里面可能个人不做具体的，例如拉曲线、看曲线、检测曲线的工作，而更多是基于智能体给到的信息去做决策。

这是大模型时代的AIOps要素，目前如上的各个方面都有很多的研究在同步推进。本届挑战赛主要针对其中的RAG 技术做重点突破。

为什么要选择RAG呢？在一年前可能大很多人都会在聊到底应该训练大模型，还是利用RAG技术，但时至今日已经达成共识，RAG技术是未来垂直领域应用的关键。如上图右下角可见，有88%的人认为RAG技术是未来大模型应该提供的API必须要具备的。

RAG具备有很多的优点。对于长尾的知识、私有的知识能够应用得很好。比如说之前有公司表示，说不想把其私域数据训练到模型里面，因为一旦训练到模型里面大家都能够access到它的data，权限不好控制。那怎么解决？就是把具有不同权限的文档结合RAG构建不同的向量数据库。另外，大模型训练需要的时间比较长，比如目前的GPT4还停留在去年6月份，所以说它知识的更新换代是跟不上的，但是RAG它就没有这个缺点。

基于这些优点的话，目前RAG大概分为以下几个模块，每一个模块的优化都可能影响到最后的问答的效果。虽然现在RAG的框架非常多，但不管这个框架如何其实都离不开如下六大模块。第一大块是整体数据，也就是本次挑战赛中兴通讯提供的文档。第二，我们会把这些文档进行分块。第三是建立向量数据库，向量数据库以Embedding为key，以文本框为value。第四，当用户的请求来了之后，我们会把用户的请求变成向量，去向量数据库里面检索跟它相近相关的文本块。第五，检索出的文本块进行排序和后处理。最后，结合大模型进行回答组装并生成相关的引用，生成相关的引用能够使内容更可信。

赛题介绍

前面整体介绍了大模型的必要性以及RAG的优点和背景，接下来对今年的赛题进行介绍。

CCF 国际AIOps挑战赛迄今第七届，本届挑战赛由中国计算机学会（CCF）主办，中国计算机学会互联网专委会、清华大学、中国科学院计算机网络信息中心承办，中兴通讯、北京智谱华章科技有限公司、中南大学计算机学院、清华大学计算机科学与技术系、北京必示科技有限公司协办。同时，本届AIOps挑战赛也是OpenAIOps社区成立之后第一届重要年度赛事。

去年挑战赛的“开放式赛题”已经带来了一些大语言模型应用方案，但是更多的方案是没有落地可评测，今年我们需要看到具体的落地应用效果。

本届挑战赛的赛题方向：“基于检索增强的运维知识问答”挑战赛。

首次采用大模型检索增强（RAG）技术，基于5G领域运维技术文档，探索如何结合领域私有技术文档进行高效私域知识问答。揭示在通用大语言模型基座下，垂直领域知识问答面临的领域知识缺失，公私域知识冲突，多模态图表并存等一系列挑战。

本届大赛采用双赛道赛制。

赛道一：使用开源的Qwen1.5-14b模型，可以自由选择对模型微调或不微调，进行RAG问答。在挑战赛官网上，我们也做了一些参考范例，供大家参考使用。

赛道二：调用智谱GLM4的API接口，模型不能微调，模拟在特定场景下没有自己微调模型能力的运维场景。

参赛队伍自由选择赛道，可以两个赛道都参加，也可以只参加一个赛道，最终成绩按照最好排名的赛道计算。

报名后，可以在挑战赛官网相应赛事的数据页面看到下载方式。本届赛事目前已经提供了约4万页的垂直领域文档，目前分为DIRECTOR、UMAC、EMSPLUS、RCP4个项目，这4个项目是5G的4大模块。

下载地址：挑战赛官网-数据Tab下，链接为：https://www.modelscope.cn/datasets/issaccv/aiops2024-challenge-dataset

举个例子，上图是数据原始材料介绍了NPCF的服务操作。

评测题目：Npcf_SMPolicyControl服务包含哪些操作？

专家人工答案：包含Create、Update、UpdateNotify、Delete操作

选手可以微调或者调用模型，基于文档构建RAG去回答问题，然后在线进行评测。

目前提供了两种数据格式（内容相同），HTML格式和TXT格式。TXT它相比HTML格式，没有跳转链接，会丢失文档间的关系性，建议有能力的选手更多的去用HTML格式，信息更加丰富。目前初赛已经公布100道精选题目，选手可以基于题目进行优化。

本次挑战赛的竞赛环境将在魔搭社区，每个参赛的选手申请到了100个小时的32GB显存的GPU以及比赛期间的免费CPU资源，然后提供了step by step的参考的范例，可以参考也可以做新的方案。

奖项设置

本届大赛奖金池总额¥140,000，两个赛道合并评分。

一等奖1名，奖金¥50,000；

二等奖2名，奖金¥30,000；

三等奖3名，奖金¥10,000。

（以上提及金额为税前金额）

赛程安排

本次挑战赛正式赛程预计跨越5个月，5月12日举办线下宣讲会，同时启动报名；6月开启初赛，选拔20+支队伍晋级复赛；7月进行复赛，最终决胜出10支队伍晋级决赛；9月将进行最终的决赛答辩和研讨会。

报名时间：2024年5月12日-6月11日

报名流程：参赛选手在官网（https://aiops-challenge.com）进行注册，按照提示填写账户资料、绑定手机号、进行实名认证，实名认证经审核通过后，即可点击“参加比赛”报名。

创建队伍：选手报名后自动创建团队，可邀请其他成员加入，组队完成后由队长确认“确认组队完成”。

资源申请：选手需“确认组队完成”（单人参赛也需要确认）后，请以团队为单位，填写资源需求表（每支队伍提交一份即可，不超过5个账号；如果参加赛道一，仅填写魔搭资源需求表即可。如果赛道二，则还需填写智谱GLM-4资源需求表），组委会将根据需求表信息为参赛各队伍提社区资源。

魔搭资源：每个账号 100小时32GB显存GPU+比赛期间免费CPU计算资源

智谱GLM-4资源：每个账号 200万 GLM-4 API 免费 tokens

评分规则

大赛分为初赛、复赛和决赛三个阶段。

初赛只需要提交答案，不强制提交文档。最后从每个赛道排行榜选择至少10个（累计20+）比赛队伍进入复赛。

如果两个赛道均参加，以最佳成绩所在赛道为主。
如果榜单成绩不佳，但方案设计有新意，可联系主办方提交设计文档。主办方会组织专家进行评审项目创新度（不多于10名，以提交顺序为准），项目创新度高的队伍可以直通复赛，原则上直通名额两个赛道累计不大于5名。

复赛20多支队伍除了会在隐藏赛题上评测，还需要提交设计文档。主办方会组织业内专家，开展复赛评审会，综合复赛榜单成绩和技术方案文档，选择打分前10名进入决赛。

前10名复赛胜出选手在决赛当天现场ppt答辩，决赛嘉宾现场投票决定排名和获奖名单。

本届挑战赛使用自动化评测方案，选手上传答案脚本，实时更新榜单。

本届挑战赛报名已开启，欢迎参与！更多赛事相关信息将在社区“智能运维前沿”公众号发布，同时OpenAIOps社区群将提供赛事通知、技术答疑，有意者可扫码添加官方微信号（OpenAIOps社区小助手）入群。

参考文献

参考文献：

Knowledge Graph Prompting for Multi-Document Question Answering, AAAI 2024
Never Lost in the Middle: Improving Large Language Models via Attention Strengthening Question Answering, arXiv:2311.09198
Visconde: Multi-document QA with GPT-3 and Neural Reranking, arXiv:2212.09656
End-to-End Training of Multi-Document Reader andRetriever for Open-Domain Question Answering, NeruIPS 2021
Chatlaw: Open-source legal large language model with integrated external knowledge bases, arXiv:2306.16092
Self-rag: Learning to retrieve, generate, and critique through self-reflection, arXiv:2310.11511
Pdftriage: Question answering over long, structured documents, arXiv:2309.08872
Answering Complex Questions by Joining Multi-Document Evidence with Quasi Knowledge Graphs, SIGIR 2019