全面解读19种RAG架构

最新推荐文章于 2025-03-26 07:31:33 发布

程序员辣条

最新推荐文章于 2025-03-26 07:31:33 发布

阅读量2.2k

点赞数 18

文章标签：架构学习人工智能大模型学习大模型入门大模型大模型教程

本文链接：https://blog.csdn.net/m0_65555479/article/details/143667228

版权

近年来，随着人工智能技术的不断发展，信息检索与生成模型逐步融合，检索增强生成（RAG）架构成为了提升语言模型性能的重要方向。RAG 通过结合检索技术与生成模型，使模型能够从外部数据源中获取更多背景信息，并以此为基础生成更为准确、上下文相关的内容。本文将详细介绍RAG的不同架构。

1、Standard RAG，标准RAG

标准RAG架构是RAG技术的基础版本，它将检索与生成结合起来，通过外部数据源增强语言模型的生成能力。在此架构下，系统会根据输入查询，从外部文档中检索相关信息，并将其与语言模型的生成能力结合，从而生成更符合上下文的回答，并且支持实时信息检索，能够在几秒内生成高质量的响应。

2、Corrective RAG，纠错型RAG

纠错型RAG旨在通过反馈机制不断改进生成结果。模型生成的初始内容会经过反馈循环进行调整，以确保最终输出的准确性,特别适用于需要高准确度的领域。

3、Speculative RAG，推测型RAG

推测型RAG通过并行生成多个草稿并采用验证模型，提升生成效率和质量，提高了生成速度并保持较高的准确性，特别适用于需要快速生成内容的应用场景。

4、Fusion RAG，融合型RAG

融合型RAG利用多个检索源同时提供信息，生成更全面的回答。它能够根据用户查询动态调整检索策略，减少对单一数据源的依赖，提供多源检索，增加生成结果的多样性与完整性。

5、Agentic RAG，智能代理型RAG

智能代理型RAG通过集成动态代理进行实时调整，能够自动适应用户的需求和上下文变化。该模型设计为模块化结构，允许整合新的数据源和功能，能够高效并行处理复杂任务，适合复杂多任务的场景。

6、Self RAG，自增强型RAG

自增强型RAG利用先前生成的内容作为下一轮检索的基础，不断提升生成的上下文一致性与准确性。在多轮对话和长时间任务中，保持一致的上下文参考。

7、Graph RAG，图谱RAG

在图谱RAG中，模型通过动态构建知识图谱（Knowledge Graph），链接相关实体以提升检索的效率和准确度。能够根据查询构建紧凑的知识图，避免检索冗余，提升复杂任务的处理能力。

8、Adaptive RAG

Adaptive RAG 动态决定何时检索外部知识，平衡内部和外部知识的使用。它利用语言模型内部状态的置信度评分来判断是否需要进行检索，并通过“诚实探针”防止幻觉现象，使输出与实际知识保持一致。该方法减少了不必要的检索，提升了效率和响应的准确性。

9、REALM: Retrieval augmented language model pre-training

REALM（检索增强语言模型预训练）通过从大型语料库（如维基百科）中检索相关文档来提升模型预测能力。其检索器通过掩码语言模型（MLM）进行训练，优化检索以提高预测准确性。在训练中，它使用最大内积搜索（Maximum Inner Product Search）高效地从数百万候选文档中找到相关内容。通过整合外部知识，REALM 在开放领域问答任务中表现优于以往模型。

10、RAPTOR: Recursive Abstractive Processing for Tree-Organized Retrieval

RAPTOR 通过递归聚类和总结文本构建层次化的树结构，支持在不同抽象层次上的检索，结合广泛主题和具体细节。它在复杂问答任务中表现优于传统方法，提供树遍历和折叠树方法，以实现高效的信息检索。

11、REFEED: Retrieval Feedback

REFEED 通过检索反馈来优化模型输出，而无需微调。它通过检索相关文档改进初始答案，并基于新信息调整生成结果。REFEED 还生成多个答案来提高检索的准确性，并结合检索前后的结果，使用排序系统增强答案的可靠性。

12、Iterative RAG，迭代RAG

迭代RAG通过多次检索步骤，根据先前检索到的文档反馈不断优化结果。检索决策遵循马尔可夫决策过程，强化学习用于提升检索性能。模型保持内部状态，基于累积的知识调整后续检索步骤，从而逐步提高检索准确性。

13、REVEAL: Retrieval-Augmented Visual-Language Model

REVEAL 是一种结合了推理、任务特定动作和外部知识的视觉-语言增强模型。这种方法通过依赖现实世界的事实减少错误和虚假信息，使推理更为准确。它生成清晰、类似人类的任务解决步骤，提升了透明度。REVEAL 在任务中表现优异，使用较少的训练数据即可实现高效和适应性强的表现，且具备灵活的互动调整能力，使模型在实际应用中更具可控性和响应性。

14、REACT: Retrieval-Enhanced Action generation

REACT 是一种结合推理与行动的技术，模型从环境中接收观察信息后，基于过去的行动和思考更新其上下文，以保持对情境的理解。模型会生成引导下一步行动的思路，确保决策逻辑清晰并与任务保持一致。执行行动后，新的反馈会进一步优化模型的理解。这种推理与行动的结合减少了错误，能够适应实时变化，并提供更加透明、可靠的决策。

15、REPLUG: Retrieval Plugin

REPLUG 通过检索外部相关文档来增强大型语言模型（LLMs）的预测能力。它将语言模型视为一个固定的“黑箱”，并在输入之前附加检索到的信息。这种灵活的设计可以无缝应用于现有模型，无需对其进行修改。通过整合外部知识，REPLUG 减少了幻觉等错误，并扩展了模型对小众信息的理解。检索组件还可以根据语言模型的反馈进行微调，进一步提高与模型需求的对齐程度。

16、MEMO RAG: Memory-Augmented RAG

MEMO RAG 结合了记忆和检索功能来处理复杂查询。记忆模型首先生成初步答案，用于引导外部信息的检索。然后，检索器从数据库中收集相关数据，交由更强大的语言模型生成全面的最终答案。该方法帮助 MEMO RAG 处理模糊查询，并高效处理各类任务中的大量信息。

17、ATLAS: Attention-based retrieval Augmented Sequence generation

ATLAS 是一种基于注意力的检索增强序列生成模型，通过检索外部文档来提高语言模型在问答等任务中的准确性。它使用双编码器检索器在大型文本库中查找最相关的文档，并通过“Fusion-in-Decoder”模型整合查询和文档数据，生成最终答案。ATLAS 依赖动态文档检索，而非记忆大量信息，减少了参数数量。文档索引可以在不重新训练模型的情况下更新，适合处理知识密集型任务。

18、RETRO: Retrieval-Enhanced Transformer

RETRO 是一种检索增强型Transformer，它将输入文本分割为较小的片段，并从大型数据库中检索相关信息。通过预训练的BERT嵌入，它从外部数据中提取相似片段来丰富上下文，并通过分块交叉注意力机制整合这些片段，从而提升预测精度而不显著增加模型规模。此方法更高效地利用外部知识，特别适用于问答和文本生成任务，同时避免了大模型的高计算成本，能更好地处理海量信息。

19、LightRAG: Simple and Fast Retrieval-Augmented Generation

LightRAG 是一个简单快速的检索增强生成（RAG）系统，适用于多种自然语言处理任务，支持OpenAI和Hugging Face语言模型，并提供多种检索模式（naive、local、global、hybrid）。与传统RAG系统不同，LightRAG 结合了知识图谱，通过图结构表示实体及其关系，增强了上下文感知能力。这种双层检索系统不仅擅长获取详细信息，还能处理复杂的多跳知识，从而解决了现有RAG系统依赖扁平数据结构、导致答案碎片化的问题，提供了更深度的、满足用户需求的响应。