RAG年终总结之12篇综述：从2022到2024看架构、策略、评测及演化

最新推荐文章于 2025-03-12 15:50:43 发布

Python_金钱豹

最新推荐文章于 2025-03-12 15:50:43 发布

阅读量1k

点赞数 7

文章标签： llama 人工智能语言模型 ocr microsoft

本文链接：https://blog.csdn.net/Python_cocola/article/details/144516976

版权

今天，我们继续来看看RAG。

参考了2022-2024三年来的12个RAG综述，共12个综述文章，设计评测、检索策略、架构、多模态、演化等多个环节，这个对于全面的了解RAG很有意义。

供各位参考，多思考，多总结，多实践；

1、2022.02.02近三年首个综述

《A Survey on Retrieval-Augmented Text Generation》，https://arxiv.org/abs/2202.01110

首先突出了检索增强生成的通用范式，然后根据不同的任务，包括对话响应生成、机器翻译和其他生成任务，回顾了值得关注的方案。

2、2023.03.20多模态RAG综述

《Retrieving Multimodal Information for Augmented Generation: A Survey》，https://arxiv.org/abs/2303.10868

探讨了通过检索多模态知识来增强生成模型的方法，特别是如何利用图像、代码、结构化知识、音频和视频等多模态信息来提升大型语言模型（LLMs）的生成能力。

例如，对于图像模态：视觉问答（VQA）使用图像检索来改进VQA任务的生成质量；图像标注通过检索相关图像内容来生成多风格标注。视觉对话检索视觉信息以生成相关的对话响应；文本生成，图像检索可以扩展文本生成的上下文，提高生成质量。

对于代码模态，文本到代码生成利用相关代码片段和文档来增强代码生成模型。代码到文本生成通过检索相关代码差异和提交消息来改进代码摘要。代码补全结合词汇和语义信息的混合技术来提高代码自动补全的性能。自动程序修复（APR）通过检索相关错误模式和修复模板来改进APR模型。

对于结构化知识模态，问答（QA）使用知识图谱和表格等结构化知识来增强QA系统的性能。文本生成检索外部知识以提高文本生成的真实性和可解释性。知识推理通过选择相关知识来进行更接地气和可解释的推理任务。知识驱动的对话生成基于相关表格和知识库生成对话。

对于音频模态，文本-音频数据增强上，检索音频和文本提示以缓解数据稀缺问题。音乐标注通过检索音频特征来生成音乐歌词。音乐生成使用深度神经哈希检索音乐构建块来生成音乐。

对于视频模态，视频对话检索视频片段以生成相关的对话响应。视频标注使用注意力层自动选择最显著的视觉或语义特征来增强视频标注生成。LLM增强将视频内容翻译成属性并提示LLM以增强其泛化能力。

3、2023.11.18首个全面RAG综述

《Retrieval-Augmented Generation for Large Language Models: A Survey》，https://arxiv.org/abs/2312.10997，全面回顾了RAG的发展历程，提供了对RAG系统各个关键组件的深入理解，并介绍了最新的评估框架和基准。

将RAG分为朴素RAG(最初的RAG方法，直接从外部数据库中检索信息并简单地将其集成到生成过程中)、高级RAG（引入了更复杂的检索和生成策略，例如基于上下文的检索和多模态集成）、模块化RAG(将RAG系统分解为独立的检索、生成和增强模块，以提高系统的灵活性和可扩展性)。

并且，介绍了最新的评估框架和基准，用于评估RAG系统的性能。

4、2024.02.29面向AIGC生成做全面综述

《Retrieval-Augmented Generation for AI-Generated Content: A Survey》，https://arxiv.org/abs/2402.19473，全面回顾了检索增强生成（RAG）在人工智能生成内容（AIGC）中的应用。几个看点，

一个是RAG的基础架构，RAG系统包括两个核心模块：检索器和生成器。检索器从数据存储中搜索相关信息，生成器利用这些信息生成所需内容。

不同类型的生成器，包括Transformer模型、LSTM、扩散模型和GAN等；

不同类型的检索器，包括稀疏检索器、密集检索器和其他方法（如编辑距离、AST、知识图谱等）。

一个是RAG的方法论，包括：基于查询的RAG：将检索结果直接作为生成器的输入，广泛应用于文本、代码、图像等领域；基于潜在表示的RAG：将检索到的对象作为潜在表示嵌入生成模型，提升模型的理解能力和生成质量；基于logit的RAG：在解码过程中通过logits整合检索信息，适用于序列生成任务；推测性RAG：使用检索替代部分生成，节省资源并加速响应速度。

一个是RAG的增强方法，包括输入增强：包括查询转换和数据增强，提升检索结果的准确性；检索器增强：通过递归检索、块优化、检索器微调等方法提高检索效果；生成器增强：通过提示工程、解码调优和生成器微调等方法提升生成质量；结果增强：通过输出重写等方法改进生成结果；RAGpipeline增强：通过自适应检索和迭代RAG等方法优化整个RAG过程。

一个是RAG在AIGC中的应用，包括文本领域、代码领域、知识领域、视频领域、图像领域、视频领域、3D领域、科学领域。

5、2024.04.17综述面向检索的核心技术

《A Survey on Retrieval-Augmented Text Generation for Large Language Models》，https://arxiv.org/abs/2404.10981，主要回顾当前RAG在各个阶段的核心技术。

例如，对于检索，分成了基本检索策略：线性工作流程，适用于简单任务；迭代检索策略：多次检索，逐步优化结果；递归检索策略：处理层次化或分层信息，适用于复杂查询；条件检索策略：根据特定条件或规则进行检索；以及自适应检索策略：动态调整检索策略以优化结果。

6、2024.04.30综述检索增强语言模型（RALMs）

《RAG and RAU: A Survey on Retrieval-Augmented Language Model in Natural Language Processing》，https://arxiv.org/abs/2404.19543，全面综述检索增强语言模型（RALMs），包括检索增强生成（RAG）和检索增强理解（RAU），并探讨其在自然语言处理（NLP）中的应用和发展，不仅关注RAG，还涵盖了RAU，详细描述了检索器和语言模型的不同交互模式，并提供了RALMs的工作时间表和应用总结。

其中关于RALMs的定义不错。

RALM包括检索器、语言模型和增强模块，检索器负责获取相关信息，语言模型进行生成或理解，增强模块则优化整个过程。

7、2024.05.10综述RAG与LLM的结合范式

《A Survey on RAG Meeting LLMs: Towards Retrieval-Augmented Large Language Models》，https://arxiv.org/abs/2405.06211，从架构、训练策略和应用三个方面系统地回顾现有研究。

有几个看点：

一个是RAG各个环节优化的关注度分布。

一个是检索集成方面，包括输入层集成：将检索到的信息与原始输入结合；输出层集成：在生成结果中融合检索信息；中间层集成：通过Transformer模块将检索信息融入生成模型。

一个是RA-LLMs的训练策略，包括无训练方法：直接在推理时利用检索机制，无需额外训练；独立训练：分别训练检索器和LLM，不进行交互；顺序训练：先训练一个模块并固定，再训练另一个模块；联合训练：同时端到端训练检索器和生成器。

一个是在下游任务上的一些代表工作：

8、2024.05.13综述RAG的评估

《Evaluation of Retrieval-Augmented Generation: A Survey》，https://arxiv.org/abs/2405.07437，探讨了检索增强生成（RAG）系统的评估方法，并提出了一个统一的评估过程（Auepora）。例如，针对评估，能够涉及到的一些指标，包括：检索指标：包括精度、召回率、平均倒数排名（MRR）和平均精度均值（MAP）等；生成指标：包括BLEU、ROUGE和BERTScore等，这些指标用于评估生成文本的质量；额外要求的指标：如延迟、多样性和噪声鲁棒性等，确保RAG系统在实际应用中的实用性。

以及常用于RAG评估的数据集：

9、2024.07.18综述RAG用于NLP自然语言处理

《Retrieval-Augmented Generation for Natural Language Processing: A Survey》，https://arxiv.org/abs/2407.13193，系统地回顾了检索增强生成（RAG）在自然语言处理（NLP）中的应用和挑战。

10、2024.08.15综述GraphRAG方案

《Graph Retrieval-Augmented Generation: A Survey》，https://arxiv.org/abs/2408.08921，系统性地回顾了Graph Retrieval-Augmented Generation (GraphRAG) 的现状和发展方向。

看点包括GraphRAG工作流程，包括图基索引（G-Indexing）、图引导检索（G-Retrieval）和图增强生成（G-Generation）三个阶段。

图基索引（G-Indexing）: 构建和索引图数据库，使用开放知识图谱和自构建图数据。索引方法包括图索引、文本索引和向量索引；

图引导检索（G-Retrieval）: 从图数据库中提取相关图元素，使用非参数检索器、基于语言模型的检索器和基于图神经网络的检索器。检索策略包括一次检索、迭代检索和多阶段检索；

图增强生成（G-Generation）: 将检索到的图数据转换为生成器可接受的格式，并结合查询生成响应。生成器可以是图神经网络（GNNs）、语言模型（LLMs）或混合模型。

11、2024.09.23综述RAG数据利用方案

《Retrieval Augmented Generation (RAG and Beyond: A Comprehensive Survey on How to Make your LLMs use External Data More Wisely》，https://arxiv.org/abs/2409.14924，探讨了如何通过外部数据增强大模型（LLMs）的能力。

提出了一个任务分类方法来更好地利用这些数据，将用户查询分为四个层次：显性事实查询、隐性事实查询、可解释理由查询和隐藏理由查询。

12、2024.10.23回顾演变时间线

《A Comprehensive Survey of Retrieval-Augmented Generation (RAG: Evolution, Current Landscape and Future Directions》，https://arxiv.org/abs/2410.12837，全面研究检索增强生成（RAG）技术，追溯其从基础概念到当前状态的演变过程。

总结

本文主要介绍了2022-2024三年来的12个RAG综述，共12个综述文章，设计评测、检索策略、架构、多模态、演化等多个环节，这个对于全面的了解RAG很有意义。大家可以按图索骥，找到自己所关注的点。

RAG已经为大家所熟知了，但依旧有很多问题没有解决，大家可以多挖掘。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述