【论文阅读】Searching for Best Practices in Retrieval-Augmented Generation

最新推荐文章于 2025-06-03 20:09:09 发布

Yanc_L

最新推荐文章于 2025-06-03 20:09:09 发布

阅读量1.9k

点赞数 31

文章标签：论文阅读

本文链接：https://blog.csdn.net/qq_41502855/article/details/140935160

版权

这篇论文对RAG的整个workflow以及各个模块进行了非常详细的讨论，甚至对各个模块的方法都做了实验对比，从而来找到RAG的最佳实践。整个阅读下来获益良多，对RAG的很多有了更系统性的认识，同时感慨下RAG的技术栈还是很广的，每个环节都有可以深入学习的地方。

总的来说，文章有3个核心贡献点：

1、探索了RAG各个组件的最佳配置

2、提出RAG评估框架和评估数据集

3、提出“retrieval as generation”, 提升图文问答能力，最后这点是一个比较novel的观点。

Related work

Query and Retrieval Transformation (pre-query & post-query处理)

pre-query:

query2doc/hyde: query -> pseudo-doc -> enhance retrieval

Toc: query -> subqueries -> aggregated retrieval results

LLamaIndex: query -> pseudo-queries -> improve retrieval

post-query:

hierarchical prompt summarization

abstractive and extractive compressor -> reduce context length and remove redundancy

Retriever Enhancement Strategy (in retrieval提升)

chunk:

smarll2big, sliding window

ranking:

deep learning model: BERT, T5, LLama

TILDE

Retriever and Generator Fine-tuning

LLM finetuning

retrieval finetuning

LLM + retriever finetuning

RAG workflow

RAG工作流通常包含多个中间处理步骤: query classification(确定给定的输入查询是否需要检索)、retrieval(有效地获取查询的相关文档)、reranking(根据检索文档与查询的相关性改进检索文档的顺序)、repacking(将检索的文档组织成结构化的文档以便更好地生成)、summarization(从重新打包的文档中提取用于生成响应的关键信息并消除冗余)模块。

query classification 搜 or 不搜？

sufficient information -> 不搜

insufficient information -> 搜

chunking

token粒度：句子截断，语义截断

语义粒度：使用大模型决定断点，耗时长

句子粒度：既保留语义完整且高效

chunk size的设置很关键，因此文章针对不同的chunk size进行实验，实验最佳结果是512token（检索+生成）

常用的chunk技术有两种，small2big和sliding window

文中提到small (175 token) big(512 token)

对比small2bug和sliding window的结果如下：

Embedding

LLM-Embedder与BAAI/ big -large-en的效果相当，但LLM-Embedder的尺寸比BAAI/ big-large-en小三倍

向量数据库

选择向量数据库要考虑的4个标准:
多种索引类型提供了基于不同数据特征和用例优化搜索的灵活性。十亿尺度向量支持对于LLM应用程序中处理大型数据集至关重要。混合搜索将矢量搜索与传统的关键词搜索相结合，提高了检索精度。云原生功能确保了云环境中的无缝集成、可伸缩性和管理。

搜索模型对比

数据集：

TREC DL19, TREC DL20

基线：

BM25 sparse retrieval

Contriever dense retrieval

结论：

supervised > unsupervised

考虑性能， Hyde + Hybrid Search

考虑时延，Hybrid Search（BM25 + LLM-Embedder）

Hyde Search

关于Hyde Search中的最佳pseudo-doc数量，1个最佳

Hybrid Search

sparse retrieval和dense retrieval如何融合，sparse的权重为0.3时，效果最佳

Reranking

根据实验结果，不同的场景使用不同的重排模型

Repacking

对检索出的chunk拼接方式

forward: score从高到低

reverse：score从低到高

sides: optimal performance is achieved when relevant information is placed at the head or tail of the input, we also include a “sides” option.

这里选择sides是因为在检索模型和重排模型最佳的情况下，sides最优

Summarization

检索出的chunk中包括很多无效信息，通过extractive提取关键信息，abstractive压缩信息形成摘要。实验结果中，recomp是最佳的summarization model

Generator Fine-tuning

正确的微调方式, mix relevant and randomly selected doc, 另一篇论文《RAFT: Adapting Language Model to Domain Specific RAG》则更为详尽地探讨了RAG中generator的微调方法

Comprehensive Evaluation

一个综合性的评测结果如下表：

Query Classification Module:有助于提高效率和有效性，使总体得分从0.428提高到0.443，并将每个查询的延迟时间从16.41秒减少到11.58秒。

Retrieval Module:虽然Hybrid与HyDE方法的RAG得分最高，为0.58，但它的计算成本相当高，每个查询11.71秒。因此，建议使用Hybrid或Original方法，因为它们在保持相当性能的同时减少了延迟。

Reranking Module:重排名模块的缺失导致性能明显下降。MonoT5获得了最高的平均分，肯定了它在增强检索文档相关性方面的有效性。这表明重新排序在提高所生成回复的质量方面的关键作用

Repacking Module：reverse表现出更好的性能，RAG得分为0.560。这表明，将更相关的上下文定位到更靠近query的位置会产生最佳结果。

Summarization Module: 提升比较小，删除该模块追求更小的时延。尽管如此，Recomp仍然是首选，因为它能够解决generator最大长度限制。

Discussion：

1、RAG的最佳实践分为两种情况：

追求极致性能：为了获得最高性能，建议合并查询分类模块，使用“Hybrid with HyDE”方法进行检索，使用monoT5进行重新排序，选择Reverse进行重新打包，并利用Recomp进行汇总。这种配置的平均得分最高，为0.483，尽管这是一个计算密集型的过程。

平衡性能和时延：为了在性能和效率之间取得平衡，建议合并查询分类模块，实现Hybrid方法进行检索，使用TILDEv2进行重新排序，选择Reverse进行重新打包，使用Recomp进行汇总。考虑到检索模块占系统处理时间的大部分，在保持其他模块不变的情况下转换到Hybrid方法可以大大减少延迟，同时保持相当的性能。

2、Multimodal Extension

RAG图文问答，将text2image和image2text检索功能整合到系统中，并将大量成对的图像和文本描述集合作为检索源。

这么做的3个好处：

Groundedness: 可溯源的描述文本的可信度 > 模型生成的可信度

Efficiency: 检索比生成更高效

Maintainability:可维护性强，模型需要持续微调迭代，而检索只需要持续补充最新数据源