Prompt工程师必备：复旦重磅 | 最佳RAG实践长什么样的？

最新推荐文章于 2025-04-27 10:50:57 发布

小马不会过河

最新推荐文章于 2025-04-27 10:50:57 发布

阅读量1.7k

点赞数 16

文章标签： prompt 人工智能架构 llama 搜索引擎

本文链接：https://blog.csdn.net/m0_59163425/article/details/140279117

版权

一段时间以来，我们发现，任何AI应用几乎都离不开RAG，检索增强生成（Retrieval-Augmented Generation，RAG）技术正在静默而深刻的影响着生成式AI行业的进步。假如你是一位prompr工程师，如果不了解几种RAG技术，那你一定不合格。

RAG：突破AI的认知界限

传统的大语言模型，尽管在处理各种任务时表现出色，但仍然存在固有的局限性。它们的知识仅限于训练数据，无法实时更新，也难以处理高度专业化的领域问题。RAG技术的出现，恰恰解决了这些痛点。

如果我们能赋予AI实时访问和利用海量外部知识的能力，会发生什么？这正是RAG所实现的。它不仅提高了AI输出的准确性和可靠性，还使AI具备了持续学习和适应新知识的能力。

来自复旦大学的研究团队在这一领域取得了突破性进展，他们系统性地探索了RAG的最佳实践，为开发者提供了宝贵的实施指南。研究团队深入分析了RAG系统的各个组成部分，包括查询分类、文档分块、检索、重排序、重新打包和总结等模块。他们不仅比较了每个模块的不同实现方法，还探讨了这些模块之间的相互影响，找到了目前技术环境下最优的组合策略。在此感谢复旦大学的研究团队，为我们在现有技术环境下总结了最优的RAG实践！论文在7月1日发表，代码链接在论文的摘要末尾。

RAG:精密的知识管理系统

RAG系统的工作流程堪称一个精密的知识管理和利用系统。根据研究团队提供的检索增强生成(RAG)系统的架构图，我们可以清晰地看到RAG系统的各个关键组件及其相互关系：

**1.大语言模型(Large Language Model)：**作为系统的核心，负责理解查询和生成回答。

**2.查询分类(Query Classification)：**判断输入查询是否需要检索外部知识。

**3.检索(Retrieval)：**从外部知识源中检索相关信息。包括多种方法如BM25、Contriever等。

**4.重排序(Reranking)：**对检索结果进行进一步排序，提高相关性。

**5.重新打包(Repacking)：**调整检索文档的顺序，优化上下文。

**6.总结(Summarization)：**压缩检索到的文档，提取关键信息。

**7.外部知识源(External Source)：**包含分块(Chunking)和嵌入(Embedding)等处理步骤。

**8.向量数据库(Vector Database)：**存储和索引文档嵌入。

**9.微调(Fine-tune)：**通过不同策略优化模型性能。

**10.评估(Evaluation)：**从多个维度评估系统性能。

这个架构图全面展示了RAG系统的复杂性和各组件的相互作用，为理解和优化RAG系统提供了清晰的框架。它强调了从查询处理到知识检索、信息整合再到最终生成的完整流程，展现了现代AI系统如何结合大规模语言模型与外部知识以提升性能和可靠性。

2.1 查询分类：智能门卫

查询分类模块犹如RAG系统的智能门卫。它的任务看似简单——判断输入查询是否需要检索增强，但其重要性却不容忽视。研究发现，合理使用查询分类可将系统平均响应时间从16.58秒缩短到11.71秒，同时还略微提升了整体性能。

这一发现对Prompt工程师的启示是深远的。在设计RAG系统时，查询分类不应被视为可有可无的附加功能，而应该被视为核心组件之一。它不仅能显著提高系统响应速度，还能通过避免不必要的检索来优化资源利用。

2.1.1深入理解查询分类

为了更好地理解查询分类的工作机制，让我们分析一下下面这张图：

这张图详细展示了RAG系统中查询分类模块的工作原理，它将输入的查询分为"需要检索"和"无需检索"两类。这种分类对于提高系统效率和性能至关重要。

2.1.1.1. 信息充分的查询：

- 这类查询包含足够的信息，可以直接由语言模型处理，无需额外检索。

- 例子包括翻译任务、改写任务、总结任务等。

- 这些任务通常涉及对给定信息的处理，而不需要额外的背景知识。

2.1.1.2. 信息不足的查询：

- 这类查询需要额外的信息支持，因此需要进行检索。

- 例子包括搜索类任务、开放式问答、需要最新信息的查询等。

- 这些任务通常需要访问外部知识库来补充必要的信息。

2.1.1.3. 背景知识：

- 一些查询虽然提供了部分信息，但仍需要检索来补充完整的背景知识。

- 例如，继续写作任务可能需要检索相关的历史背景或人物信息。

2.1.1.4. 无背景知识：

- 一些查询完全依赖外部信息，需要全面的检索支持。

- 例如，询问未来事件的地点或寻求特定问题的建议。

这种细致的查询分类机制使RAG系统能够：

**- 提高效率：**对不需要检索的查询直接处理，节省时间和计算资源。

**- 提升准确性：**为需要额外信息的查询提供精确的知识支持。

**- 优化用户体验：**根据查询类型提供最适合的响应方式。

**- 资源管理：**合理分配系统资源，重点支持需要检索的复杂查询。

对于Prompt工程师来说，理解这种查询分类机制非常重要。它可以帮助设计更智能的提示策略，根据不同类型的查询来调整系统的行为，从而在各种场景下都能获得最佳性能。例如，对于信息充分的查询，可以设计直接利用给定信息的提示；而对于信息不足的查询，则可以设计引导系统进行有效检索的提示。

2.2 检索模块：RAG的"大脑"

检索模块是RAG系统的核心，它就像人类大脑中负责记忆检索的部分。研究团队比较了多种检索方法，包括原始检索、"假设性文档嵌入（Hypothetical Document Embeddings，HyDE）、混合检索以及HyDE与混合检索的结合。

HyDE 技术的核心思想是：对于给定的查询，首先生成一个假设性（或虚拟性）的理想文档（即可能包含答案的虚构文档），然后使用这个假设性文档的嵌入来检索实际的相关文档。这种方法旨在提高检索的相关性和准确性。

结果显示，HyDE与混合检索的结合方法在性能上表现最佳，RAG得分高达0.580。这种方法的优势在于它既利用了HyDE生成假设文档的创新性，又结合了混合检索的全面性。然而，这种高性能是以计算成本为代价的，每次查询需要11.71秒。

对于Prompt工程师来说，这一发现提供了重要的设计思路。在构建RAG系统时，需要根据具体应用场景来权衡性能和效率。例如，对于需要实时响应的客户服务chatbot，可以选择更快速的混合检索或原始检索方法。而对于追求高质量输出的内容生成系统，则可以考虑使用HyDE与混合检索的结合方法。

此外，工程师还可以考虑实现动态检索策略。系统可以根据查询的复杂度、时间要求等因素，自动选择最合适的检索方法。这种灵活性可以让RAG系统在各种应用场景中都能发挥最佳性能。

2.2.1 嵌入模型的选择

嵌入模型之前研究者详细全面地总结了分块(Chunking)相关的关键点，分块策略在RAG系统中的重要性，以及如何通过优化分块大小、技术和嵌入模型来提高系统性能。

2.2.1.1. 分块的重要性：

o 将文档分割成小段对提高检索精度和避免LLM的长度问题至关重要。

o 可以在不同粒度级别进行：标记级、句子级和语义级。

2.2.1.2. 分块级别：

o 标记级分块简单但可能分割句子，影响检索质量。

o 语义级分块使用LLM确定断点，保留上下文但耗时。

o 句子级分块在保留文本语义和简单高效之间取得平衡。

2.2.1.3. 句子级分块，从五个维度考察：

2.2.1.4. 块大小：

o 大块提供更多上下文，但增加处理时间。

o 小块改善检索召回率并减少时间，但可能缺乏足够上下文。

o 最佳块大小为512，在忠实度(97.59)和相关性(97.41)之间取得平衡。

2.2.1.5. 分块技术：

o 高级技术如small-to-big和滑动窗口通过组织块关系改善检索质量。

o 滑动窗口技术表现最佳，平均忠实度为97.41，相关性为96.85。

接着研究者将目前流行的五种不同的向量数据库，从四个关键方面进行了评估：

2.2.2.1.多重索引类型(Multiple Index Type)：

o Milvus和Faiss支持多重索引类型，这提供了更灵活的搜索优化选项。

o 其他数据库(Weaviate，Chroma，Qdrant)不支持多重索引类型。

2.2.2.2.十亿级扩展(Billion-Scale)：

o Milvus和Qdrant能够处理十亿级别的向量，适合大规模应用。

o 其他数据库在这方面的能力有限。

2.2.2.3.混合搜索(Hybrid Search)：

o 除Faiss外，所有数据库都支持混合搜索，结合了向量搜索和传统关键词搜索。

2.2.2.4.云原生(Cloud-Native)：

o 除Faiss外，所有数据库都具有云原生特性，便于在云环境中部署和管理。

· Milvus是唯一一个在所有四个方面都表现出色的数据库，显示出其全面性和versatility。

· Faiss虽然支持多重索引类型，但在其他方面表现较弱，特别是在云部署方面。

· Qdrant在除多重索引类型外的所有方面都表现良好。

· Weaviate和Chroma虽然支持混合搜索和云原生，但在处理大规模数据和索引灵活性方面有限制。

这个比较突出了Milvus作为一个全面解决方案的优势，同时也展示了不同数据库在各个方面的strengths and weaknesses。选择合适的向量数据库时，需要根据具体项目的需求和scale来权衡这些特性。

检索模块的效果很大程度上依赖于所使用的嵌入模型。让我们看看下面这张表格，它展示了不同嵌入模型在namespace-Pt/msmarco数据集上的性能对比：

这些数据对于理解和选择RAG系统中的嵌入模型至关重要。让我们深入分析这些结果：

2.2.3.1. 评估指标：

- MRR@k (Mean Reciprocal Rank at k)：衡量模型在前k个结果中找到相关文档的能力。

- R@k (Recall at k)：衡量模型在前k个结果中检索到相关文档的比例。

****2.2.3.2. 性能最佳的模型：

- BAAI/LLM-Embedder和BAAI/bge-large-en 在多个指标上表现最佳。

- 这两个模型在 MRR@1、MRR@10和R@10 上都取得了最高分。

****2.2.3.3. 模型大小与性能：

- 通常，较大的模型（如 large 版本）性能优于较小的模型。

- 但BAAI/bge-small-en-v1.5 在某些指标上表现也很不错，显示了小模型的潜力。

****2.2.3.4. 版本迭代的影响：

- 新版本的模型（如 v1.5）通常比旧版本表现更好，体现了模型迭代的重要性。

这些结果对RAG系统的设计有重要启示：

**一. 模型选择：**根据具体应用场景的需求（如对准确性、速度的不同要求）选择合适的嵌入模型。

**二. 性能与效率平衡：**在高性能大模型和计算效率高的小模型之间权衡。

**三. 版本更新：**及时关注和采用最新版本的模型，以获得性能提升。

**四. 任务适配：**根据特定任务的重要指标（如更看重MRR还是Recall）来选择模型。

对Prompt工程师而言，理解这些嵌入模型的性能特征非常重要。它可以帮助他们为不同的应用场景设计更有效的提示策略，如针对高召回率的任务使用不同于追求高精度任务的提示方式。

2.3 重排序：精准定位关键信息

重排序模块就像是RAG系统的"信息过滤器"。它的作用是进一步提升检索结果的相关性，确保最重要的信息能被优先处理。研究比较了多种重排序方法，包括monoT5、monoBERT、RankLLaMA和TILDEv2。

实验结果表明，使用monoT5进行重排序能够获得最高的平均得分。这一发现强调了重排序在提升生成质量中的关键作用。对于Prompt工程师来说，这意味着在RAG系统中集成有效的重排序机制可以显著提高最终输出的质量。

在实际应用中，工程师可以考虑实现多级重排序策略。例如，可以先使用计算速度较快的方法（如TILDEv2）进行初步筛选，然后再使用更精确但计算成本较高的方法（如monoT5）对Top-K结果进行精细重排序。这种策略可以在保证性能的同时，有效控制计算成本。

2.4 重新打包：优化上下文排列

重新打包模块的作用类似于给检索到的信息"排版"。研究者比较了正向排序、反向排序和两侧排序三种策略。结果显示，反向排序策略表现最佳，RAG得分达到0.560。

这一发现揭示了一个重要的认知原理：将最相关的信息放在靠近查询的位置，有助于生成模型更好地理解和利用上下文。对Prompt工程师而言，这提供了一个优化RAG系统输出质量的重要方向。

在实际应用中，工程师可以考虑实现动态打包策略。例如，可以根据任务类型、查询长度等因素，自动选择最合适的排序方法。甚至可以尝试使用机器学习模型来学习最优的文档排序方式，进一步提升系统性能。

2.5 总结模块：提炼精华信息

总结模块就像是RAG系统的"信息压缩器"。研究比较了Recomp和LongLLMLingua两种总结方法。结果表明，Recomp方法在性能上略胜一筹。然而，研究者也发现，在某些情况下，完全移除总结模块反而能获得更好的性能和更低的延迟。

这一发现为Prompt工程师提供了一个重要的设计思路：总结模块并非必不可少，其使用与否应该根据具体应用场景和系统要求来决定。在一些对实时性要求极高的应用中，可以考虑省略总结步骤以提高响应速度。

在实际应用中，工程师可以考虑实现自适应总结策略。系统可以根据检索结果的长度、复杂度等因素，动态决定是否进行总结，以及使用何种总结方法。这种灵活性可以让RAG系统在各种应用场景中都能保持最佳性能。

2.6 生成器微调：提升模型适应性

研究团队探讨了生成器微调对RAG系统性能的影响，尝试了使用相关文档、随机文档以及混合文档进行微调的策略。结果表明，使用相关和随机文档混合进行微调的策略效果最佳。

这一发现对Prompt工程师具有重要的指导意义。在微调RAG系统的生成器时，不应只关注与任务直接相关的文档，还应引入一定比例的随机文档。这种方法不仅可以提高模型对相关信息的利用能力，还能增强其对不相关信息的鲁棒性，从而提高模型的泛化能力和抗干扰能力。

在实际应用中，工程师可以考虑实现动态微调策略。例如，可以根据系统的实际使用情况，定期收集用户查询和系统响应，用这些真实数据来持续微调模型。这种方法可以让RAG系统不断适应新的应用场景和用户需求，保持长期的高性能。

RAG的最佳实践：性能与效率的平衡艺术

基于大量实验结果，研究团队提出了两种RAG实施策略，分别针对追求最高性能和平衡性能与效率的场景。让我们通过下面这张详细的实验结果表格来深入分析这些策略：

这张表格提供了对RAG系统不同组件和配置的全面评估结果，为我们提供了宝贵的洞察。让我们深入分析这些数据：

3.1 评估指标解读

- 表格涵盖了多个任务领域：常识推理(Commonsense)、事实检查(Fact Check)、开放域问答(ODQA)、多跳问答(Multihop)和医疗问答(Medical)。

- 使用了准确率(Acc)、精确匹配(EM)、F1分数等指标，以及综合的RAG得分。

- 同时考虑了平均延迟(Latency)，体现了性能与效率的权衡。

3.2 关键发现

3.2.1. 查询分类模块的影响：

- 引入查询分类后，整体性能略有提升（平均分从0.465提高到0.478）。

- 查询分类显著降低了延迟（从16.58秒减少到11.71秒）。

3.2.2. 检索模块比较：

- "Hybrid with HyDE"方法在多数指标上表现最佳，平均分达到0.478。

- 然而，它也带来了较高的延迟（11.71秒）。

- 纯Hybrid方法在医疗任务上表现突出（0.750），同时保持较低延迟（1.45秒）。

3.2.3. 重排序模块的作用：

- monoT5重排序方法整体表现最佳，平均分为0.478。

- 不同重排序方法在性能和延迟上存在差异，如RankLLaMA性能好但延迟高。

3.2.4. 重新打包策略：

- 反向排序(reverse)策略略优于其他方法，在医疗和RAG任务上表现尤为出色。

3.2.5. 总结模块的影响：

- Recomp总结方法略优于LongLLMLingua。

- 有趣的是，移除总结模块在某些任务上反而提高了性能，同时减少了延迟。

基于这些发现，研究团队提出了两种RAG实施策略：

3.3 追求最佳性能的RAG配置：

3.3.1. 集成查询分类模块

3.3.2. 采用"Hybrid with HyDE"检索方法

3.3.3. 使用monoT5进行重排序

3.3.4. 采用反向排序策略

3.3.5. 使用Recomp进行总结

这种配置在实验中获得了最高的平均得分0.483，但计算开销较大。它适合那些对输出质量要求极高，且能够容忍较长响应时间的应用场景。例如，在生成高质量的研究报告、详细的技术文档或复杂的数据分析时，这种配置可以发挥其优势。

3.4 平衡效率和性能的RAG配置：

3.4.1. 集成查询分类模块

3.4.2. 采用Hybrid检索方法

3.4.3. 使用TILDEv2进行重排序

3.4.4. 采用反向排序策略

3.4.5. 使用Recomp进行总结

这种配置在保持较好性能的同时，大幅降低了系统延迟。它适合那些需要在性能和效率之间取得平衡的应用场景。例如，在开发实时性要求较高的客户服务chatbot或交互式学习系统时，这种配置可能是更好的选择。

RAG的实践启示

对于Prompt工程师和AI系统开发者来说，这些研究结果提供了丰富的实践启示：

4.1. 模块化设计的重要性：

每个模块都对整体性能有显著影响，证实了RAG系统模块化设计的价值。在实际开发中，应该注重系统的模块化，以便灵活调整和优化各个组件。

4.2. 性能与效率的权衡：

高性能配置（如Hybrid with HyDE）通常伴随较高延迟，实际应用中需要根据具体需求权衡。工程师应该根据应用场景的特点，选择合适的性能-效率平衡点。

4.3. 任务特异性：

不同配置在各类任务上表现不一，突显了为特定领域定制RAG系统的重要性。在开发针对特定领域的AI应用时，应该进行针对性的优化和调整。

4.4. 查询分类的价值：

查询分类不仅提升了性能，更大幅降低了延迟，是一个值得重视的优化点。工程师应考虑在RAG系统中实现智能的查询分类机制。

4.5. 灵活配置的必要性：

最佳配置因任务而异，强调了设计灵活、可配置RAG系统的重要性。开发可动态调整的RAG系统架构，能够适应不同的应用需求。

4.6. 意外发现的价值：

某些情况下，简化系统（如移除总结模块）反而能提升性能，提醒我们要警惕过度复杂化。在系统设计中，应该保持开放心态，不断测试和验证各种可能性。

检索增强生成技术无疑是AI领域的一个重要突破。研究团队已经在探索将RAG扩展到图像生成和理解任务中。未来，我们可能会看到更多跨模态的RAG应用，如视频分析、音频处理等。未来的RAG系统可能会具备实时学习能力，能够从每次交互中学习并更新其知识库，实现真正的持续学习。RAG系统可能会更加个性化，能够根据用户的历史交互和偏好来定制检索和生成策略。为了处理更大规模的知识库，未来可能会出现分布式RAG系统，能够在多个服务器或设备上协同工作。这项研究通过系统性地探索RAG的最佳实践，为Prompt工程师和AI开发者提供了宝贵的指导，在此推荐给大家。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述