【RAG排序优化】提升rag系统排序效果-CSDN博客

本文链接：https://blog.csdn.net/weixin_37763484/article/details/148445582

提升检索增强生成（RAG）系统中重排序准确率的技术研究报告

1. 引言

1.1 RAG 概述

检索增强生成（Retrieval-Augmented Generation, RAG）作为一种新兴的人工智能范式，旨在通过整合外部知识库来增强大型语言模型（Large Language Models, LLMs）的能力 1。LLMs 虽然在通用领域展现出强大的理解和生成能力，但其知识通常受限于预训练数据，可能存在知识过时或在特定领域产生幻觉（hallucination）的问题 1。RAG 通过在生成回答前，先从外部知识源（如文档库、数据库、知识图谱等）检索相关信息，并将这些信息作为上下文提供给 LLM，从而显著提升了生成内容的准确性、时效性和可信度 1。

一个典型的 RAG 系统通常包含三个核心组件：检索器（Retriever）、生成器（Generator）和增强过程（Augmentation） 3。检索器负责根据用户查询从知识库中召回相关文档片段；增强过程将检索到的信息与原始查询整合，形成输入提示；生成器（通常是 LLM）则基于增强后的提示生成最终的回答。

1.2 重排序的必要性

在 RAG 流程中，初始检索阶段（通常采用向量检索、关键词检索或混合检索）的目标往往是最大化召回率（Recall），即尽可能多地找出所有潜在相关的文档片段，以避免遗漏关键信息 38。然而，这种策略不可避免地会引入一定数量的不相关或低相关性的“噪声”文档 1。如果直接将这些包含噪声的检索结果输入 LLM，可能会干扰模型的理解，导致生成不准确、不连贯甚至错误的回答，产生所谓的“大海捞针”或“迷失在中间”（lost in the middle）的问题 59。

因此，在初始检索之后、送入生成器之前，引入一个重排序（Re-ranking）阶段变得至关重要 18。重排序器的任务是对初步检索到的候选文档集进行更精细化的相关性评估，并按照与用户查询的真实相关度进行重新排序，将最相关的文档排在前面 53。这一步骤旨在提高输入给 LLM 的上下文的精确度（Precision），确保生成器能够基于最相关、最可靠的信息进行推理和生成 1。重排序的质量直接影响最终生成答案的质量、事实一致性（Faithfulness）和相关性（Relevance） 1。

1.3 目标与范围

本报告旨在全面、深入地梳理和分析当前用于优化 RAG 系统中重排序阶段准确率的先进技术、模型、策略及评估方法。报告内容将融合来自学术界（特别是 ArXiv 预印本平台）的前沿研究成果和技术社区（如知乎、CSDN、博客园、微信公众号及相关技术博客）的实践经验与讨论。具体范围包括：

重排序模型与架构： 探讨基于交叉编码器（Cross-encoder）、大型语言模型（LLM）以及图神经网络（GNN）等不同技术的重排序模型原理与效果。
排序策略与训练： 分析 Pointwise、Pairwise、Listwise 等排序策略在 RAG 场景的应用，以及用于训练高效重排序模型的损失函数和数据策略。
效率与准确性权衡： 研究轻量级模型、模型蒸馏、KV 缓存复用等技术，以平衡重排序的精度与计算开销。
结果融合： 讨论 RRF（Reciprocal Rank Fusion）等融合算法对最终排序精度的影响。
评估方法： 介绍评估重排序效果的常用指标（如 NDCG, MRR, Precision@k）和基准测试。
具体实践： 总结文献中提及的具体模型（如 RankT5, RankZephyr, Colbertv2）、算法、框架（如 FastGPT, QAnything）和实践经验。

通过对这些内容的系统性整理和分析，本报告期望为从事 RAG 系统研发与优化的研究人员和工程师提供一份有价值的技术参考。

2. RAG 中重排序的基础

2.1 召回与精度的权衡

信息检索系统，包括 RAG 中的检索模块，其核心目标是在效率和效果之间取得平衡。效果通常通过两个关键指标来衡量：召回率（Recall）和精确率（Precision） 32。召回率指的是系统检索到的相关文档占所有相关文档的比例，而精确率则是指检索到的文档中有多少是真正相关的 38。

在 RAG 的初始检索阶段，为了确保 LLM 能够接触到所有可能需要的信息，通常会优先考虑最大化召回率 38。这意味着检索系统可能会返回一个相对较大的候选文档集，其中包含了大部分相关的文档，但也可能混入了许多不相关或相关性较低的文档。这种“宁可错杀，不可放过”的策略虽然保证了信息的覆盖面，但牺牲了精确率。

将这样一个高召回率、低精确率的文档集直接输入 LLM 会带来问题。LLM 的上下文窗口长度有限 28，过多的无关信息会稀释相关信息的密度，增加模型的处理负担，甚至可能误导模型，导致其“迷失在中间” 59，即忽略了上下文窗口中部的重要信息，最终影响生成答案的质量和准确性。

因此，重排序阶段的核心价值在于对初始检索结果进行“提纯”，在保证相关信息不丢失的前提下，大幅提升输入给 LLM 的上下文的精确率。重排序器通过更复杂的计算来评估每个候选文档与查询的真实相关性，并将最相关的文档排在前面，从而在召回率和精确率之间实现更好的平衡，为后续的生成阶段提供高质量的输入 53。

2.2 混合检索后的重排序需求

为了在初始检索阶段尽可能提高召回率，混合检索（Hybrid Search）技术被广泛采用 69。混合检索通常结合了两种或多种检索方法的优势：

稠密向量检索（Dense Retrieval / Vector Search）： 基于文本的语义嵌入向量进行相似度搜索。它擅长理解查询的深层语义和上下文，能够召回与查询在概念上相关但可能不包含完全相同关键词的文档 32。
稀疏向量检索/关键词检索（Sparse Retrieval / Keyword Search）： 通常基于传统的词频统计模型（如 BM25、TF-IDF）进行检索。它对于包含特定关键词、实体名称、缩写词等的查询非常有效，能够实现精确匹配 32。一些研究指出，稀疏向量模型（如 Splade）在域外知识搜索、关键词感知和可解释性方面可能优于稠密向量模型 70。

混合检索通过并行执行这两种（或多种）检索方式，并将结果合并，旨在捕获更全面的相关文档集，弥补单一检索方式的不足 29。然而，混合检索后的结果集合通常更大，且不同来源的结果排序和得分标准可能不统一。例如，向量检索的得分基于向量距离（相似度），而 BM25 的得分基于词频统计。

这就更加凸显了重排序的必要性。重排序器需要接收来自混合检索的、可能包含冗余和噪声的候选文档列表，并应用一个统一的、更侧重语义相关性的标准，对这些文档进行重新评估和排序 53。一些系统还会使用结果融合算法（如 RRF）来合并不同检索路径的得分，然后再进行重排序或将融合得分作为重排序的一个特征 53。最终目标是生成一个高质量、高精度的排序列表，供 LLM 使用。

2.3 对生成质量的影响

重排序阶段的输出质量直接决定了输入到生成器 LLM 的上下文质量，进而深刻影响最终生成答案的性能。其影响体现在多个方面：

减少幻觉（Hallucination）： LLM 产生幻觉的一个重要原因是缺乏准确、相关的上下文信息，或者被不相关的信息误导 1。有效的重排序能够过滤掉噪声和无关信息，提供精确、相关的上下文，从而显著降低 LLM 产生幻觉的风险 1。
提升事实一致性（Faithfulness）： RAG 的一个核心目标是让 LLM 的回答基于提供的外部知识，而不是其内部可能过时或错误的参数化知识 1。重排序通过提供最相关的证据，增强了生成答案与检索到的上下文之间的一致性，即提升了 Faithfulness 指标 1。
提高答案相关性（Answer Relevance）： 只有当输入的上下文与用户查询高度相关时，LLM 才能生成切题、有用的答案 1。重排序确保了输入上下文的最高相关性，从而提高了最终答案的相关性 1。
缓解“迷失在中间”问题： LLM 在处理长上下文时，可能会对处于中间位置的信息关注度降低 59。重排序通过精简上下文，将最关键的信息排在前面，有助于 LLM 更好地捕捉和利用这些核心信息，缓解“迷失在中间”的问题 55。

重排序作为 RAG 流程中的关键过滤器，其性能直接调控着输入给生成器 LLM 的上下文的信噪比。初始检索阶段为了保证高召回率，往往会引入大量噪声 51。重排序器的核心职责是对这些初步结果进行更精确的相关性评估 53，通过排序或过滤，有效提升上下文的质量（相关性和精确度） 1。高质量的上下文是 LLM 生成准确、可靠、相关答案的基础 1。因此，优化重排序是提升整个 RAG 系统性能的关键环节，形成了“检索 -> 重排序 -> 上下文质量 -> 生成质量”的直接影响链条。

3. 重排序模型与架构

为了实现对初步检索结果的精确相关性评估和排序，研究人员开发了多种类型的重排序模型。这些模型在原理、性能和计算开销上各有特点。

3.1 交叉编码器（Cross-Encoder）模型

交叉编码器模型是重排序任务中常用且效果显著的一类模型 18。

原理： 与在初始检索阶段常用的双编码器（Bi-encoder）模型（分别独立编码查询和文档）不同，交叉编码器将用户查询（Query）和每个候选文档（Document）拼接在一起，作为一个整体输入到同一个 Transformer 模型中进行处理 18。模型通过深层的交互（如自注意力机制）来捕捉查询和文档之间细粒度的语义关联，并最终输出一个相关性得分 18。
优势： 由于查询和文档在模型内部进行了充分的交互，交叉编码器能够非常精确地判断它们之间的相关性，通常在排序精度上表现优异 55。它们被认为是提升检索精度的有力武器 62。
劣势： 其主要缺点是计算开销巨大且延迟较高 55。因为对于每一个查询，都需要将查询与所有候选文档（例如，初步检索返回的 Top-K 个文档）分别组合并输入模型进行一次完整的前向计算 55。这使得交叉编码器在需要处理大量候选文档或对响应时间要求较高的场景下可能不适用。
应用实例： 许多研究和实践中都使用基于 BERT 62 或类似 Transformer 架构的交叉编码器进行重排序 61。一些专门为排序任务设计的模型，如 RankT5 61 和 RankZephyr 61（虽然它们本身可能是 Encoder-Decoder 或 Decoder-only 架构，但其核心思想是通过模型判断相关性，功能上类似交叉编码器用于重排序），也被用于 RAG 的重排序阶段 53。

3.2 大型语言模型（LLM）作为重排序器

利用大型语言模型（LLMs）强大的自然语言理解和推理能力来进行重排序，是近年来一个备受关注的方向 18。

原理： LLMs 可以通过精心设计的提示（Prompt）来理解重排序任务，并根据其内部知识和推理能力评估文档与查询的相关性 61。
方法：
- 零样本（Zero-shot）排序： 无需额外训练，直接通过 Prompt 指示 LLM 对给定的候选文档列表根据与查询的相关性进行排序或评分 61。例如，可以要求 LLM 对每个文档给出一个相关性分数，或者直接输出排序后的文档列表。研究表明，即使是零样本的 LLM 排序器，有时也能表现出强大的能力 61。
- 少样本（Few-shot）排序： 在 Prompt 中提供少量排序示例（Demonstrations），引导 LLM 更好地理解排序标准和任务要求 61。
- 有监督微调（Supervised Fine-tuning）： 使用排序相关的标注数据（如查询-文档对的相关性标签，或文档对的偏好关系）对 LLM 进行微调，使其成为一个专门的排序模型 61。这种方式可以获得更高的排序精度，但需要额外的训练数据和计算资源。
- 特定提示策略： 研究人员探索了不同的提示策略以提升 LLM 排序效果，例如成对排序提示（Pairwise Ranking Prompting），即让 LLM 比较两个文档哪个与查询更相关 61。
优势： 可以利用 LLM 强大的上下文理解和推理能力，可能捕捉到交叉编码器难以发现的复杂相关性模式。对于零样本和少样本方法，部署相对灵活。
劣势：
- 延迟和成本： 调用大型 LLM API 进行排序通常比使用专门的交叉编码器模型更慢且成本更高，尤其是在需要处理大量候选文档时 61。
- 上下文窗口限制： LLM 的上下文窗口长度有限，可能难以一次性处理所有候选文档，需要分批处理或采用特殊策略。
- 潜在偏见和幻觉： LLM 自身的偏见或产生幻觉的可能性也可能影响排序结果的可靠性 61。
- 对提示的敏感性： 零样本和少样本方法的性能高度依赖于 Prompt 的设计。

3.3 图神经网络（GNN）用于重排序

利用图结构来建模文档、段落或实体之间的关系，并使用图神经网络（GNNs）进行重排序，是一种新兴的技术路径 18。

原理： GNNs 能够学习图中节点的表示，并捕获节点间的复杂依赖关系 18。在重排序场景下，可以将候选文档（或段落、实体）视为图中的节点，节点间的边可以表示它们之间的语义相似度、引用关系、共现关系或其他类型的关联 18。GNN 通过聚合邻居节点的信息来更新节点表示，从而得到更能反映文档间相互关系的表示，用于最终的相关性排序 18。
技术：
- 图构建： 图的构建方式多样，可以基于文档间的相似度（如余弦相似度）构建 18，也可以利用文档内部结构（如段落关系） 18，或者引入外部知识图谱（Knowledge Graphs, KGs）来连接文档中的实体并利用实体间的关系 18。
- GNN 架构： 可以采用如图注意力网络（Graph Attention Network, GAT）等 GNN 架构来学习节点表示和进行相关性评分 18。
- GraphRAG： 一些框架如 Microsoft 的 GraphRAG 明确利用图结构（例如，通过社区检测和摘要）来改进 RAG 的检索和上下文构建过程，虽然不直接进行 GNN 计算，但体现了利用图结构信息的思想 21。
- CausalRAG： 进一步地，CausalRAG 尝试在 RAG 中引入因果图，通过构建和追踪因果关系来提升检索精度和上下文连贯性，旨在超越简单的语义或结构关联 21。
优势： 能够显式地建模和利用文档间的关系信息，这对于理解上下文、处理需要整合多个文档信息才能回答的复杂查询可能特别有用。
劣势：
- 图构建复杂性： 如何有效地构建高质量的图结构本身就是一个挑战 18。
- 计算开销： GNN 的训练和推理也可能带来额外的计算负担。
- 标准化和评估： 缺乏标准化的图构建方法和评估基准，使得不同 GNN 重排序方法的比较变得困难 18。

当前的研究趋势显示，重排序器的选择正从传统的交叉编码器向更多样化的架构演进。LLM 以其强大的语义理解和零样本能力成为一个有吸引力的选项，尽管成本和延迟是主要障碍。GNN 则为利用文档间结构和关系信息提供了新的可能性，尤其适用于需要深度上下文理解的任务。这种多元化的发展反映了业界在追求更高排序精度的同时，也在探索如何更好地利用现有大型模型的潜力和结构化信息。

表 1: 重排序模型架构对比

模型类型

原理

优点

缺点

示例/相关技术

相关文献

交叉编码器 (Cross-Encoder)

将查询和文档拼接后输入 Transformer 模型，进行深度交互建模，输出相关性分数。

4. 重排序策略与训练

选择合适的重排序模型架构是第一步，而如何定义排序目标并通过训练使模型学会排序，则是实现高精度重排序的关键。这涉及到排序策略的选择、损失函数的设计以及训练数据的构建。

4.1 Pointwise, Pairwise, Listwise 策略

学习到排序（Learning to Rank, LTR）领域通常将排序问题建模为三种不同的策略 18：

Pointwise（单点法）：
- 原理： 将排序问题转化为对单个文档的相关性打分问题（分类或回归）。模型独立地评估每个候选文档与给定查询的相关性，并输出一个分数。最终的排序列表根据这些分数进行排列。
- 优点： 概念简单，易于实现，可以利用标准的分类或回归损失函数。
- 缺点： 没有显式地考虑文档之间的相对顺序，优化目标与最终的排序评估指标（如 NDCG）可能不完全一致。
- 应用： 许多基于交叉编码器的重排序器采用 Pointwise 策略，直接预测查询-文档对的相关性分数 18。
Pairwise（配对法）：
- 原理： 将排序问题转化为对文档对的偏好判断问题。模型接收一对文档 (di,dj) 和查询 q，预测 di 是否比 dj 更相关。训练的目标是最小化排序错误的文档对数量。
- 优点： 直接优化文档间的相对顺序，更接近排序任务的本质。
- 缺点： 忽略了文档在整个列表中的绝对位置信息；训练复杂度相对较高，需要处理文档对。
- 应用： 一些 LLM 排序方法采用 Pairwise 提示策略，让 LLM 判断两个文档哪个更优 61。RankNet 等损失函数是 Pairwise 方法的代表。
Listwise（列表法）：
- 原理： 将排序问题视为对整个候选文档列表的优化问题。模型直接接收查询和整个文档列表作为输入，并输出一个排序好的列表或优化与排序评估指标（如 NDCG, MRR）直接相关的损失函数。
- 优点： 理论上最接近排序评估指标，能够直接优化列表整体的排序质量。
- 缺点： 实现和训练通常最为复杂，需要处理整个列表的排列或评估指标的计算。
- 应用： LambdaMART 等算法是 Listwise 方法的代表。一些研究尝试让 LLM 直接对列表进行排序（Zero-Shot Listwise Reranking） 61，或者在 GNN 排序中考虑整个列表的结构信息 63。

在 RAG 重排序场景中，选择哪种策略取决于具体的模型架构、可用的训练数据以及对排序精度的要求。Pairwise 和 Listwise 方法通常被认为能够带来更好的排序效果，但实现和训练成本也更高。

4.2 学习到排序的损失函数

对于需要训练的重排序模型（如有监督微调的 LLM 或交叉编码器），选择合适的损失函数至关重要。损失函数定义了模型在训练过程中需要优化的目标。

Pointwise 损失： 可以使用标准的分类损失（如交叉熵损失，如果将相关性视为离散等级）或回归损失（如均方误差，如果将相关性视为连续分数）。
Pairwise 损失：
- RankNet Loss： 基于概率框架，最小化排序错误的文档对的交叉熵损失。
- Hinge Loss (Ranking SVM)： 基于 SVM 思想，最大化相关文档对与不相关文档对之间的得分间隔。
Listwise 损失：
- LambdaRank/LambdaMART： 通过引入与排序评估指标（如 NDCG）梯度相关的 "Lambda" 梯度来优化 Pairwise 损失，从而间接优化 Listwise 指标。LambdaMART 结合了 LambdaRank 和 MART (Multiple Additive Regression Trees)。
- ListNet/ListMLE： 基于概率模型，直接优化排序列表的似然或交叉熵。

选择合适的损失函数需要考虑其与最终评估指标的匹配程度以及计算效率。LambdaMART 等 Listwise 方法因其在许多排序任务上的优异表现而受到广泛关注。

4.3 训练数据策略

训练数据的质量和类型对重排序模型的性能有着决定性影响。

基准数据集： 公开的基准数据集，如 MS MARCO 65，包含了大量的查询、相关文档及非相关文档，常被用于训练和评估信息检索及重排序模型。使用这些标准数据集有助于模型学习通用的相关性判断能力，并方便与其他研究进行比较。
合成数据生成： 获取大规模、高质量的人工标注排序数据（尤其是偏好数据）成本高昂。因此，利用 LLM 生成合成训练数据成为一种越来越流行的策略 95。
- 生成查询-文档对： 可以让 LLM 基于文档内容生成可能的用户查询。
- 生成偏好数据： 可以让 LLM 对文档对进行相关性比较，生成 Pairwise 标签。
- 生成难负例（Hard Negatives）： ALoFTRAG 框架展示了如何利用 LLM 生成问答对，并结合向量检索来挖掘那些与查询语义相似但答案不正确的“难负例”文档 95。将这些难负例加入训练，可以帮助模型更好地区分细微的相关性差异。
领域自适应微调： 通用数据集上训练的模型可能无法很好地适应特定领域的语言风格和相关性标准（例如，法律、医疗、金融领域） 95。因此，在目标领域的特定数据上进行微调（Domain-Specific Fine-tuning）对于提升重排序性能至关重要 95。这可以利用领域内的查询日志、点击数据或专门标注的数据进行。
- ALoFTRAG 实践： ALoFTRAG 框架通过在目标领域的无标签文档上自动生成问答对和难负例，并进行本地 LoRA 微调，实现了在无需人工标注和外部大模型的情况下提升领域内 RAG 准确性和引用能力的目标 95。

获取高质量的训练数据，特别是能反映真实排序需求的偏好数据，是训练高性能重排序模型的主要瓶颈之一。利用 LLM 生成合成数据，特别是结合难负例挖掘，以及在目标领域数据上进行微调，是当前解决数据稀疏性问题、提升模型领域适应性和排序精度的重要手段。ALoFTRAG 95 等框架的出现，进一步展示了自动化、本地化微调在提升领域 RAG 性能方面的潜力。

5. 优化端到端 RAG 流程以提升重排序效果

重排序并非 RAG 流程中的孤立环节，其性能受到上游（如索引构建、查询处理、初始检索）和下游（生成）组件的影响，同时也影响着下游组件。因此，需要从端到端的角度来考虑优化策略。

5.1 与混合检索的协同

如前所述，混合检索旨在通过结合稀疏（关键词）和稠密（向量）检索来最大化初始召回率 69。这为重排序器提供了一个更广泛的候选集。

处理更大候选集： 重排序器需要能够有效地处理来自混合检索的、可能数量更多、包含更多噪声的候选文档 53。这意味着重排序算法不仅要准确，还要具备一定的效率。
融合策略： 如何结合来自不同检索路径（如 BM25 和向量检索）的得分是一个关键问题。一种常见方法是使用结果融合算法（如 RRF）在重排序之前或之后合并分数 53。RRF 通过考虑文档在各个列表中的倒数排名来计算融合分数，无需显式权重即可平衡不同检索方法的影响 53。另一种方法是将原始检索得分作为特征输入给重排序模型。
平台支持： 许多云服务和开源搜索引擎平台，如 Azure AI Search 51, OpenSearch 74, Milvus (支持稀疏+稠密混合查询) 70, Elasticsearch 100, Weaviate 80, Vertex AI 1, 华为 KooSearch 69, 腾讯云 ES 102，都提供了对混合检索的支持，为后续的重排序提供了基础。

5.2 查询理解与优化的影响

输入给检索系统和重排序器的查询质量直接影响最终结果。模糊、不完整或表达不佳的查询难以匹配到相关的文档。因此，查询理解和优化技术对于提升重排序效果至关重要。

查询扩展（Query Expansion）： 通过增加同义词、相关词或生成伪文档来丰富查询的语义信息，弥补原始查询可能存在的关键词缺失或表达不精确的问题 25。
- HyDE (Hypothetical Document Embeddings)： HyDE 是一种独特的查询扩展技术。它首先利用 LLM 根据原始查询生成一个“假设性”的答案或文档 4。然后，将这个假设性文档编码为向量，并使用该向量在文档库中进行相似性搜索 60。这种“答案到答案”的匹配方式，旨在更好地捕捉查询背后的真实信息需求，从而提高召回文档的相关性，为重排序提供更好的输入 4。
- Query2Doc： 另一种利用 LLM 进行查询扩展的方法是 Query2Doc。它通过少样本提示（few-shot prompting）让 LLM 基于原始查询生成一个伪文档（pseudo-document） 25。然后，将原始查询与生成的伪文档拼接起来，形成一个增强的查询输入给检索器 103。这种方法旨在通过增加查询的上下文信息来提升检索（进而影响重排序）的准确性。
查询重写（Query Rewriting）： 针对用户查询中可能存在的模糊、指代不清（尤其在多轮对话中）、拼写错误或表达不规范等问题，利用 LLM 或规则对查询进行改写，生成更清晰、更适合检索的查询 4。例如，FastGPT 通过“问题优化”实现指代消除和问题扩展 53。华为 KooSearch 也提及基于大模型进行 Query 改写，包括历史多轮 Session 的指代消解和省略补全 69。
查询分解（Query Decomposition）： 对于包含多个子问题或需要多步推理才能回答的复杂查询，将其分解为一系列更简单的子查询 4。分别对子查询进行检索和（可能的）重排序，然后将结果汇总给 LLM 进行综合回答。华为 KooSearch 提及基于大模型技术对复杂 Query 进行拆解 69。Collab-RAG 框架利用小型语言模型（SLM）进行查询分解，以指导后续的检索和大型语言模型（LLM）的推理 4。

这些查询理解与优化技术通过提升输入查询的质量和明确性，能够显著改善初始检索的相关性，从而为重排序阶段提供更优质的候选集，最终提升整个 RAG 系统的性能。

5.3 分块（Chunking）策略的影响

将长文档切分成较小的、可管理的数据块（Chunks）是 RAG 流程中的一个基础且关键的步骤 3。分块策略直接影响检索单元的粒度和上下文信息量，进而影响重排序的效果。

分块大小的权衡：
- 小块（Smaller Chunks）： 优点是能够更精确地定位到具体信息，可能提高初始检索的精确率和召回率（更容易匹配到具体问题的答案片段） 66。缺点是可能丢失重要的上下文信息，导致语义理解不完整 66。重排序器在评估小块的相关性时，可能因缺乏上下文而难以准确判断。
- 大块（Larger Chunks）： 优点是能包含更丰富的上下文信息，有助于语义理解和保持信息的连贯性 56。缺点是可能包含较多与查询不直接相关的信息（噪声），增加重排序和生成阶段的处理负担，并可能稀释关键信息 56。
先进的分块与组织策略： 为了克服简单固定大小分块的局限性，研究者提出了一些更智能的策略：
- 句子窗口检索（Sentence Window Retrieval）： 先检索单个句子（小块），然后在生成阶段将该句子及其周围的句子（窗口）一起提供给 LLM 59。这种方法试图结合小块检索的精确性和窗口提供的上下文。重排序可以在句子层面或窗口层面进行。
- 小块到大块检索（Small-to-Big Retrieval）： 索引和检索更小的、更具针对性的文本块（如句子或摘要），但在检索到这些小块后，将包含这些小块的更大、更完整的父块（如段落或整个文档）提供给 LLM 46。这种策略旨在利用小块提高检索精度，同时利用大块保证生成所需的上下文完整性。重排序可以在小块或大块层面进行。
- 结构感知分块（Structure-aware Chunking）： 利用文档的固有结构（如段落、章节、标题）进行分块，而不是简单地按固定大小切分 56。例如，可以按段落或 Markdown 标题进行分割。HyPA-RAG 的实验表明，针对特定文档结构（如 NYC Local Law 144 的章节分隔符 " \n §"）的模式化分块（Pattern-based chunking）效果优于句子级和语义分块 73。
- 语义分块（Semantic Chunking）： 利用语义相似度来决定分块边界，尝试将语义连贯的内容保持在同一块内 73。
- 重叠分块（Overlapping Chunks）： 让相邻的块之间有部分内容重叠，以减少信息在块边界被切割的可能性，有助于保持上下文连续性 56。
- 分层索引/递归检索（Hierarchical Indexing / Recursive Retrieval）： 将文档组织成层次结构（例如，通过递归摘要或聚类构建树状结构，如 RAPTOR 116 或 HIRO 123），允许在不同粒度级别上进行检索 11。这种方法可能允许重排序器根据查询的需要，在不同层级选择最合适的上下文。

分块策略的选择对重排序器的输入质量有直接影响。过于碎片化的信息或包含大量噪声的上下文都会增加重排序的难度。因此，选择能够平衡信息粒度与上下文完整性的分块策略，并结合有效的查询处理和初始检索方法，是优化重排序性能乃至整个 RAG 系统性能的基础。这表明，RAG 系统的优化需要全局视角，认识到索引、查询处理、检索和重排序等环节是相互依存、相互影响的。仅仅优化单一环节（如重排序模型本身）可能无法达到最佳效果，需要对整个流程进行协同优化。

6. 平衡重排序准确性与效率

尽管引入复杂的重排序模型（如交叉编码器或大型 LLM）能够显著提升排序精度，但其带来的高昂计算成本和延迟是实际应用中必须面对的严峻挑战 55。因此，研究如何在保证（或略微牺牲）准确性的前提下，提高重排序阶段的效率，成为了 RAG 优化的一个重要方向。

6.1 效率挑战

交叉编码器的计算瓶颈： 如前所述，交叉编码器需要对每个查询-文档对进行完整的模型推理，计算量与候选文档数量成正比，导致显著的延迟和资源消耗 55。
LLM 排序器的开销： 使用大型 LLM 进行排序，无论是通过 API 调用还是本地部署，通常比专用排序模型更慢、成本更高 61。处理大量候选文档时，多次调用 LLM 或处理长上下文的开销会非常可观。

这些效率问题限制了高精度重排序技术在实时性要求高、查询量大的生产环境中的应用。

6.2 轻量级模型与模型蒸馏

一种降低重排序成本的方法是使用更轻量级的模型，或者将复杂模型的知识迁移到小模型上。

轻量级重排序模型： 开发参数量更少、结构更简单的重排序模型，牺牲一部分精度来换取速度的提升。这可能涉及使用更小的 Transformer 架构或非 Transformer 模型。
模型蒸馏（Model Distillation）： 将一个大型、高精度的“教师”重排序模型（如复杂的交叉编码器或 LLM 排序器）的知识，通过训练迁移到一个更小、更快的“学生”模型中 131。学生模型学习模仿教师模型的排序行为或输出分数，从而在保持较高精度的同时，大幅降低推理成本。

6.3 KV 缓存复用技术

KV 缓存（Key-Value Cache）是 Transformer 模型在自注意力计算中存储中间结果（键和值）的机制，用于加速自回归生成过程。利用 KV 缓存进行优化在 LLM 推理中已很常见，近期研究开始将其应用于优化 RAG 流程，特别是重排序与生成阶段的衔接。

核心思想： 在 RAG 流程中，重排序器（尤其是基于 Transformer 的，如交叉编码器或 LLM 排序器）在处理候选文档时会计算并生成这些文档的 KV 缓存 62。如果后续的生成器 LLM 与重排序器使用相同或兼容的模型架构，那么生成器在处理这些被选中的文档作为上下文时，可以直接复用重排序阶段已经计算好的 KV 缓存，而无需重新计算 62。
HyperRAG 系统： HyperRAG 是一个明确利用重排序器 KV 缓存复用来优化 RAG 效率的系统 62。它通过存储所有文档块的 KV 缓存，并在重排序后，将选中块的预计算 KV 缓存高效加载给生成器使用 62。实验表明，对于 Decoder-only 架构的重排序器，HyperRAG 可以在保持甚至提升下游任务性能的同时，实现 2-3 倍的吞吐量提升 62。该系统还考虑了分布式部署架构，通过共享 KV 缓存存储来分摊成本 62。尽管需要额外的存储空间（例如，MS MARCO 数据集可能需要 40TB 以上），但相对于 GPU 计算成本，存储成本通常可以忽略不计，使得 HyperRAG 成为一种经济高效的优化方案 62。
相关技术： KVLink 134 和 RetroLM 142 等技术也探索了 KV 缓存的高效管理和复用，虽然它们的应用场景可能更侧重于长上下文处理或多段落融合，但其核心思想（如独立编码段落 KV 缓存并在推理时拼接）与 HyperRAG 的优化思路有共通之处，都旨在通过避免冗余计算来提升效率 134。

6.4 上下文压缩与选择

即使经过重排序选出了 Top-K 个最相关的文档，这些文档的总长度可能仍然超过 LLM 的最佳上下文窗口，或者包含冗余信息 131。因此，在将重排序后的结果送入生成器之前，进行一次上下文压缩或选择，是另一种提高效率（减少输入长度）和潜在提高精度（去除冗余）的方法。

动机： 减少输入给生成器 LLM 的 Token 数量，可以降低推理延迟和成本，同时可能通过聚焦核心信息来改善生成质量 131。
技术：
- 查询无关压缩（Query-Agnostic Compression）： 对文档进行预压缩，生成摘要或关键信息表示，独立于具体查询 131。
- 查询感知压缩（Query-Aware Compression）： 在推理时根据当前查询动态地压缩或选择上下文内容 131。
- LLMLingua： 一种利用小型 LLM 来识别和移除提示中冗余 Token 的方法 143。
- ATTENTIONRAG： 该方法通过将 RAG 查询重新表述为下一个词元预测任务，利用 LLM 的注意力机制来识别和保留重排序后上下文中与查询焦点最相关的句子 143。它首先生成一个包含空白符的“答案提示前缀”（Answer Hint Prefix），然后计算上下文词元相对于这个空白符（焦点词元）的注意力分数，最后只选择包含注意力分数最高的 Top-K 词元的句子，形成压缩后的上下文 143。实验表明，ATTENTIONRAG 可以在 LongBench 等基准上实现高达 6.3 倍甚至 15 倍的上下文压缩率，同时保持甚至超越未压缩上下文的性能 143。

效率优化是让先进重排序技术走向实用化的关键。模型蒸馏、KV 缓存复用（如 HyperRAG）和上下文压缩（如 ATTENTIONRAG）等技术，为解决高精度重排序带来的性能瓶颈提供了有效的途径。这表明，在 RAG 系统的研发中，必须同时关注算法精度和系统效率，通过综合运用这些优化手段，才能构建出既准确又高效的 RAG 应用。

7. 先进技术：融合与控制

随着 RAG 技术的发展，研究者们开始探索更高级的技术来进一步优化排序和生成过程，包括更智能的结果融合方法、引入自主决策能力的 Agentic RAG，以及对模型知识来源进行更精细控制的技术。

7.1 结果融合算法

当 RAG 系统采用多路召回（如混合检索）或多查询策略（如查询分解或重写后生成多个查询）时，会得到多个排序列表。如何有效地将这些列表融合成一个最终排序，直接影响提供给生成器的上下文质量。

目的： 整合来自不同检索或排序策略的结果，利用各自的优势，生成一个比任何单一列表更优的最终排序。
RRF (Reciprocal Rank Fusion)： RRF 是一种简单而有效的无监督融合算法 53。它不依赖于原始的相关性分数（这些分数可能来自不同模型且不可比），而是仅基于文档在各个排好序的列表中的排名（rank）进行计算。对于每个文档，其 RRF 分数是其在所有列表中排名的倒数之和（通常会加上一个小的常数 k 以平滑，如 1/(rank+k)） 82。最终列表按照 RRF 分数降序排列。
优点： RRF 对每个输入列表给予了相对平等的考虑，特别适用于不确定各个检索/排序方法相对重要性的情况 82。它易于实现，并且在实践中被证明是有效的。
应用： FastGPT 等框架明确使用 RRF 来合并语义检索、全文检索以及可能的重排模型的结果，以获得最终的搜索结果 53。混合搜索场景下，RRF 也常被用于融合向量搜索和关键词搜索的结果 56。

7.2 Agentic RAG：动态重排序与检索

Agentic RAG 是将自主 AI Agent 的概念引入 RAG 流程的一种高级范式 21。Agent 不再遵循固定的“检索-重排-生成”流程，而是可以根据任务需求和中间结果，动态地规划和执行信息检索、评估和整合的步骤。

核心理念： 利用 Agent 的规划（Planning）、工具使用（Tool Use）、反思（Reflection）和多 Agent 协作（Multi-Agent Collaboration）等模式，实现更灵活、更智能、更适应复杂任务的 RAG 流程 21。
在重排序中的应用：
- 动态策略选择： Agent 可以根据查询的复杂性或初步检索结果的质量，动态决定是否需要进行重排序，以及选择哪种重排序模型（例如，简单查询用轻量模型，复杂查询用交叉编码器或 LLM） 12。
- 迭代式检索与重排： Agent 可以执行多轮检索和重排。例如，在第一轮检索和重排后，Agent 通过反思（Reflection）评估当前信息的充分性和相关性，如果不足，则规划（Planning）生成新的查询或调整策略，进行下一轮检索和重排 93。
- 工具调用： Agent 可以将不同的检索器（向量、BM25、知识图谱）和重排序器视为可调用的工具（Tool Use），根据任务需求灵活组合使用 93。
- 多 Agent 协作： 可以设计专门负责检索、重排序、评估、生成的 Agent，它们相互协作（Multi-Agent Collaboration）完成复杂的 RAG 任务 93。例如，一个 Agent 负责初步检索，另一个 Agent 负责重排序，还有一个 Agent 负责评估重排序结果是否满足要求。
框架示例： LangChain 146 和 Crew AI 146 等框架支持构建 Agentic 应用。

Agentic RAG 为优化重排序提供了更大的灵活性和智能性，使得系统能够根据具体情况自适应地调整策略，有望在处理复杂查询和多步推理任务时取得更好的效果。

7.3 控制知识依赖（重排序之后）

即使经过了精心的重排序，提供给生成器 LLM 的上下文仍然可能与 LLM 内部存储的参数化知识发生冲突 26。例如，检索到的最新信息可能与 LLM 预训练时学到的旧知识相悖。在这种情况下，如何控制 LLM 在生成答案时更倾向于依赖哪个知识源（外部上下文 vs 内部参数），成为了保证 RAG 系统可靠性的一个新挑战。

问题： 传统的 RAG 流程通常假设 LLM 会优先采信提供的上下文，但这并非总是如此。LLM 可能仍然“固执地”依赖其内部知识，导致生成不忠实于上下文的答案 26。过度依赖上下文也可能存在风险，特别是当检索到的上下文本身包含错误或噪声时 26。
目标： 实现对 LLM 知识依赖度的精细控制，使其能够根据上下文的可靠性和查询的需求，在外部知识（上下文忠实度, Faithfulness）和内部知识（事实性, Factuality）之间进行权衡 26。
CK-PLUG 方法： CK-PLUG (Controllable Knowledge Plug-in) 是一种无需修改模型参数、在推理阶段即可应用的即插即用方法，用于控制 LLM 对参数化知识和上下文知识的依赖 26。
- 冲突检测： CK-PLUG 引入了一个名为“置信度增益”（Confidence Gain）的新指标，通过比较加入上下文前后模型预测下一个词元的概率分布的熵（Shannon Entropy）变化，来检测参数化知识与上下文知识之间的冲突 26。负的置信度增益表示存在冲突。
- 依赖控制： 对于检测到冲突的词元（负置信度增益），CK-PLUG 通过一个可调参数 α 来加权融合仅基于参数化知识的预测概率和基于上下文知识的预测概率，从而调整最终的生成概率分布 26。α 的值决定了模型更倾向于哪个知识源。
- 自适应模式： CK-PLUG 还支持自适应模式，可以根据模型对内部和外部知识的置信度自动调整依赖平衡，无需手动设置 α 26。
- 效果： 实验表明，CK-PLUG 能够显著地调节在反事实 RAG 场景下的知识依赖度（例如，Llama3-8B 的记忆召回率可在 9.9%-71.9% 之间调整），同时保持生成文本的流畅性和知识准确性 154。
CaLE 方法： CaLE (Context-aware Layer Enhancement) 是另一种旨在提升上下文忠实度的方法 84。它通过 V-usable 信息分析，识别出 LLM 中对上下文信息增长最显著的“上下文感知层”，然后通过放大或残差连接等方式增强该层的表示，从而促进上下文信息向最终输出层的流动 84。

这些控制知识依赖的技术代表了 RAG 优化的一个新方向，即从仅仅关注提供“相关”上下文，转向更深入地管理 LLM 如何“使用”这些上下文。这对于构建更可靠、更可控、更能应对复杂信息环境的 RAG 系统至关重要。

RAG 优化的前沿正在向更动态、自适应和可控的系统发展。Agentic RAG 通过引入自主决策和规划能力，打破了传统 RAG 的线性流程。而 CK-PLUG 和 CaLE 等技术则着眼于生成阶段，为调和外部检索知识与 LLM 内部知识的潜在冲突提供了显式控制机制。这些进展共同指向了未来 RAG 系统的发展方向：不仅要检索得准、排得好，还要能智能地、可信地利用好检索到的信息。

8. 评估重排序性能

评估重排序模块的性能对于理解其对整个 RAG 系统的贡献以及指导优化方向至关重要 1。评估需要从两个层面进行：一是衡量重排序列表本身的质量（排序指标），二是评估重排序对最终 LLM 生成结果的影响（下游任务指标）。

8.1 关键评估指标

传统信息检索（IR）排序指标： 这些指标主要评估排序列表的质量，关注相关文档是否被排在靠前的位置。
- NDCG (Normalized Discounted Cumulative Gain)： 最常用的排序评估指标之一 65。它同时考虑了相关文档的排序位置和相关性等级（例如，完全相关、部分相关、不相关）。排名越高、相关性越强的文档对 NDCG 的贡献越大。NDCG 的值被归一化到区间，便于比较不同查询或系统的结果。
- MRR (Mean Reciprocal Rank)： 计算多个查询的平均倒数排名 52。对于每个查询，找到第一个相关文档的排名 ranki，计算其倒数 1/ranki，然后对所有查询的倒数排名求平均。MRR 特别关注第一个相关结果的位置，适用于用户通常只关心找到一个正确答案的场景（如事实问答）。
- Precision@k： 计算排名前 k 个结果中相关文档的比例 66。它衡量了列表顶部的精确度。
- Recall@k： 计算排名前 k 个结果中包含的相关文档占所有相关文档（通常在已知相关文档集合的情况下计算）的比例 38。它衡量了列表顶部的覆盖度。
面向 RAG 的下游任务指标： 这些指标评估重排序后的上下文对最终 LLM 生成质量的影响。
- Faithfulness（忠实度/事实一致性）： 衡量生成的答案是否与提供的（重排序后的）上下文信息保持一致，没有捏造或歪曲事实 1。这是评估 RAG 系统可靠性的核心指标之一。
- Answer Relevance（答案相关性）： 评估生成的答案在多大程度上回应了用户的原始查询意图，并且是基于所提供的上下文生成的 1。
- Context Relevance（上下文相关性）： 评估被选中（经过重排序后）并最终用于生成答案的上下文片段与用户查询的相关程度 30。
- Context Precision / Recall： Context Precision 衡量最终使用的上下文中相关信息的比例，Context Recall 衡量最终使用的上下文包含了多少所需的相关信息 38。这有助于判断重排序是否有效筛选了信息。
- Accuracy@k (in ALoFTRAG context): 衡量模型是否能在 Top-k 检索结果中正确识别出包含答案的原始文档 163。

8.2 评估框架与基准

为了系统地评估 RAG 及重排序性能，社区开发了一些专门的评估框架和基准数据集。

评估框架：
- RAGAS: 一个流行的 RAG 评估框架，提供 Faithfulness, Answer Relevance, Context Relevance 等指标的自动化评估 38。
- ARES: 使用轻量级、经过微调的 LLM 作为“裁判”，对 RAG 的检索和生成组件进行评估 88。
- RGB (RAG Benchmark): 提供 RAG 评估数据集和指标 88。
- RAGCHECKER: 用于对 RAG 系统中的检索和生成进行详细分析 91。
- TruLens: (在用户查询中提及，但未在提供的材料中找到明确支持) 可能是一个用于评估和追踪 LLM 应用（包括 RAG）的工具。
- 其他框架: 还存在如 Giskard 73, UpTrain 等用于评估 LLM 应用的框架，可能也包含 RAG 评估功能。
基准数据集：
- MIRAGE: 专门为 RAG 评估设计的问答数据集，包含 7560 个实例和 37800 个文档块的检索池 91。它支持对检索和生成进行精确评估，并引入了噪声脆弱性（Noise Vulnerability）、上下文可接受性（Context Acceptability）、上下文不敏感性（Context Insensitivity）和上下文误解（Context Misinterpretation）等新的 RAG 适应性指标 159。
- UAEval4RAG: 专注于评估 RAG 系统处理不可回答问题的能力 88。它定义了六种不可回答查询类型，并提供了自动生成这些查询的流程和相应的评估指标（如 Unanswered Ratio, Acceptable Ratio） 88。
- LongBench / BABILong: 用于评估模型处理长上下文能力的基准，也可用于测试 RAG 系统在长文档场景下的重排序和压缩效果 131。
- 其他: 传统 QA 数据集如 Natural Questions (NQ) 84, TriviaQA 113, HotpotQA 62, SQuAD 84 等也常被用于评估 RAG 系统的端到端性能。MS MARCO 65 则常用于评估检索和重排序本身的性能。

评估 RAG 重排序的有效性是一个多维度的问题。它不仅需要使用 NDCG、MRR 等传统 IR 指标来衡量排序列表本身的质量 65，还需要通过 Faithfulness、Answer Relevance 等下游指标来评估其对最终生成结果的实际影响 1。专门为 RAG 设计的评估框架（如 RAGAS, ARES）和基准（如 MIRAGE, UAEval4RAG）的出现，反映了社区对更全面、更细致评估方法的需求。然而，评估方法的标准化仍然是一个挑战 18，需要持续的研究来开发更可靠、更高效、更能反映真实应用场景需求的评估体系。

9. 整合技术与实践案例

为了给 RAG 系统的开发者提供更直观的参考，本节将整合前述讨论的关键技术点，并关联具体的模型、平台或框架实现。

表 2: RAG 重排序优化技术与相关工具/框架

优化领域

具体技术/模型

示例实现/平台

关键优势/关注点

相关文献

混合检索

BM25 + 向量检索

Azure AI Search, OpenSearch, Milvus, Elasticsearch, Weaviate, Vertex AI, Huawei KooSearch, Tencent ES, FastGPT, QAnything

最大化初始召回率，结合关键词与语义匹配

69-29

查询优化

HyDE (Hypothetical Document Embeddings)

Azure (提及), LlamaIndex (可能集成)

通过生成假设性答案进行“答案-答案”匹配，提升语义召回

Query2Doc

LlamaIndex (可能集成)

通过生成伪文档扩展查询上下文

查询重写/分解

FastGPT, Huawei KooSearch, Collab-RAG, QAnything, LlamaIndex

澄清意图，处理多轮对话，分解复杂问题

分块策略

句子窗口 (Sentence Window)

LlamaIndex

平衡检索精度与上下文

小块到大块 (Small-to-Big)

LlamaIndex

结合小块精度与大块上下文

分层索引/递归检索

RAPTOR, HIRO, LlamaIndex

在不同粒度上检索，处理长文档

重排序模型

交叉编码器 (Cross-Encoder)

RankT5, RankZephyr, BERT-based

高精度相关性判断

LLM Reranker

GPT-4, Llama 等 (通过 Prompt 或微调)

利用 LLM 的理解和推理能力

GNN Reranker

GAT, GraphRAG, CausalRAG

建模文档/实体间关系

效率优化

KV 缓存复用

HyperRAG, KVLink, RetroLM

减少重排序器与生成器间的冗余计算，提升吞吐量

上下文压缩

ATTENTIONRAG, LLMLingua

减少输入 LLM 的 Token 数，聚焦关键信息

131

模型蒸馏/轻量模型

降低推理成本和延迟

131

结果融合

RRF (Reciprocal Rank Fusion)

FastGPT, Azure AI Search (提及 RRF 概念)

无监督融合多路排序结果

动态/控制

Agentic RAG

LangChain, Crew AI

动态规划、反思、工具使用，自适应 RAG 流程

知识依赖控制

CK-PLUG, CaLE

控制 LLM 对参数化知识与上下文知识的依赖度

评估

指标/框架/基准

NDCG, MRR, P@k, R@k, Faithfulness, Relevance; RAGAS, ARES, RGB, RAGCHECKER; MIRAGE, UAEval4RAG, LongBench, BABILong

全面评估排序质量和下游影响

1-21

此表提供了一个将理论技术与具体实践联系起来的参考框架。可以看出，提升 RAG 重排序效果是一个系统工程，涉及从数据处理、查询理解、检索策略、排序模型、效率优化到结果融合和评估等多个环节。许多平台和框架（如 LlamaIndex, LangChain, Azure AI Search, OpenSearch, FastGPT, QAnything, 华为云、阿里云、腾讯云的相关服务）正致力于提供整合的解决方案，以简化 RAG 系统的构建和优化过程 69。

10. 结论与未来方向

10.1 结论回顾

本报告深入探讨了提升 RAG 系统中重排序准确性的多种技术和策略。核心结论如下：

重排序的关键性： 重排序是 RAG 流程中弥合高召回率初始检索与高质量生成之间差距的关键环节。它通过精炼候选文档，显著提升输入给 LLM 的上下文质量，直接影响最终答案的准确性、相关性和事实一致性。
模型选择的多样性： 重排序器的实现方式日益多样化。传统交叉编码器精度高但效率低；LLM 作为重排序器利用其强大理解力，但面临成本和延迟挑战；GNN 则为利用结构化信息提供了新途径。选择需权衡精度、效率和任务需求。
上游优化的重要性： 重排序性能高度依赖于上游步骤。优化的分块策略（如小块到大块、分层索引）、查询处理（如 HyDE、Query2Doc、查询分解/重写）以及混合检索策略，都能为重排序提供更优质的输入，是实现端到端优化的基础。
效率优化的必要性： 高精度重排序带来的计算开销是实际部署的主要障碍。模型蒸馏、KV 缓存复用（如 HyperRAG）以及上下文压缩（如 ATTENTIONRAG）等效率优化技术对于使先进重排序方法变得实用至关重要。
动态与控制的趋势： RAG 优化的前沿正朝着更动态、自适应和可控的方向发展。Agentic RAG 提供了灵活的流程管理能力，而 CK-PLUG 等技术则实现了对 LLM 知识依赖的精细控制。
评估的复杂性： 评估重排序效果需要结合传统 IR 指标（NDCG, MRR）和下游生成指标（Faithfulness, Relevance）。专门的 RAG 评估框架和基准（如 RAGAS, MIRAGE, UAEval4RAG）有助于进行更全面的评估，但标准化仍是挑战。

10.2 开放挑战

尽管 RAG 重排序技术取得了显著进展，但仍面临诸多挑战：

鲁棒性（Robustness）： 如何提高重排序器在面对噪声、冲突甚至恶意信息时的鲁棒性，确保其不会被误导而选出错误的上下文 3。处理反事实或与 LLM 内部知识冲突的上下文是一个特别的挑战 26。
可扩展性（Scalability）： 如何将计算密集型的重排序方法（如交叉编码器、LLM 排序器）高效地应用于包含海量文档的知识库和高并发查询场景 3。
实时适应性（Real-time Adaptation）： 如何让重排序策略能够根据查询类型、用户反馈或变化的上下文动态调整，而不是采用固定的 Top-K 或静态模型 12。
可解释性（Interpretability）： 理解重排序模型（尤其是复杂的 LLM 或 GNN 模型）做出排序决策的原因，对于调试系统、建立信任至关重要，但这方面仍有待深入研究 21。
评估标准化（Standardization）： 缺乏统一的、被广泛接受的基准数据集和评估协议，特别是在特定领域或针对 GNN 等新兴方法，阻碍了不同技术间的公平比较和领域进展 18。

10.3 未来方向

基于当前的进展和挑战，未来 RAG 重排序的研究可以关注以下方向：

深度推理融合： 将 LLM 的链式思考（Chain-of-Thought）等推理能力更紧密地融入重排序过程，不仅仅是评分，而是让模型在排序时进行显式的推理判断。
多模态重排序： 随着多模态 RAG 的发展 3，研究如何对包含文本、图像、音频等多种模态的检索结果进行有效重排序，将是一个重要方向。
个性化重排序： 根据用户的个人画像、历史行为或偏好，对检索结果进行个性化重排序，提供更符合个体需求的上下文 36。
因果感知的重排序： 深入探索 CausalRAG 21 等方法，不仅仅基于语义相似性，而是根据信息间的因果关系来评估和排序上下文，可能带来更深层次的理解和更可靠的生成。
端到端联合优化： 开发能够联合优化检索、重排序和生成三个阶段的模型和训练方法，实现全局最优，而不是各阶段独立优化 12。
边缘 RAG (EdgeRAG)： 随着模型轻量化和边缘计算的发展，研究在资源受限的边缘设备上实现高效且准确的重排序技术 36。
可信 RAG (Trustworthy RAG)： 结合可解释性、鲁棒性、公平性和隐私保护等要求，研究构建更值得信赖的重排序机制 36。

总之，优化 RAG 系统中的重排序环节是提升 LLM 应用性能的关键。未来的研究需要在精度、效率、鲁棒性、可解释性和适应性等多个维度上持续探索，结合模型、算法、系统和评估方法的创新，推动 RAG 技术向更智能、更可靠、更实用的方向发展。

引用的著作

什麼是檢索增強生成(RAG)？ - Google Cloud, 访问时间为四月 28, 2025， https://cloud.google.com/use-cases/retrieval-augmented-generation?hl=zh-TW
双壁合一采用Amazon DocumentDB 向量和文本搜索构建RAG 双路召回集成Amazon Bedrock Claude 3 实现游戏产品推荐, 访问时间为四月 28, 2025， https://aws.amazon.com/cn/blogs/china/implementing-game-recommendations-using-amazon-documentdb-and-amazon-bedrock/
专补大模型短板的RAG有哪些新进展？这篇综述讲明白了丨达观动态 ..., 访问时间为四月 28, 2025， https://www.datagrand.com/blog/%E4%B8%93%E8%A1%A5%E5%A4%A7%E6%A8%A1%E5%9E%8B%E7%9F%AD%E6%9D%BF%E7%9A%84rag%E6%9C%89%E5%93%AA%E4%BA%9B%E6%96%B0%E8%BF%9B%E5%B1%95%EF%BC%9F%E8%BF%99%E7%AF%87%E7%BB%BC%E8%BF%B0%E8%AE%B2%E6%98%8E.html
arxiv.org, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2504.04915
[2402.19473] Retrieval-Augmented Generation for AI-Generated Content: A Survey - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/abs/2402.19473
Chain-of-Rank: Enhancing Large Language Models for Domain-Specific RAG in Edge Device - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2502.15134v1
arxiv.org, 访问时间为四月 28, 2025， https://arxiv.org/abs/2312.10997
Retrieval-Augmented Generation with Conflicting Evidence - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2504.13079
arXiv:2501.05554v1 [cs.CL] 9 Jan 2025, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2501.05554
A Survey on RAG Meeting LLMs: Towards Retrieval-Augmented Large Language Models, 访问时间为四月 28, 2025， https://arxiv.org/abs/2405.06211
Retrieval-Augmented Generation for Large Language Models: A Survey - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2312.10997
arXiv:2502.06205v1 [cs.CL] 10 Feb 2025, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2502.06205
CHUNKRAG: A NOVEL LLM-CHUNK FILTERING - OpenReview, 访问时间为四月 28, 2025， https://openreview.net/pdf?id=NsvaW3Y6Su
[2410.12837] A Comprehensive Survey of Retrieval-Augmented Generation (RAG): Evolution, Current Landscape and Future Directions - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/abs/2410.12837
arXiv:2501.13726v1 [cs.CL] 23 Jan 2025, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2501.13726
[2409.14924] Retrieval Augmented Generation (RAG) and Beyond: A Comprehensive Survey on How to Make your LLMs use External Data More Wisely - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/abs/2409.14924
What Is Retrieval-Augmented Generation aka RAG - NVIDIA Blog, 访问时间为四月 28, 2025， https://blogs.nvidia.com/blog/what-is-retrieval-augmented-generation/
arXiv:2503.14802v1 [cs.IR] 19 Mar 2025, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2503.14802
Collab-RAG: Boosting Retrieval-Augmented Generation for Complex Question Answering via White-Box and Black-Box LLM Collaboration - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2504.04915v1
arxiv.org, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2502.08356
CausalRAG: Integrating Causal Graphs into Retrieval-Augmented Generation - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2503.19878v1
[2503.10677] A Survey on Knowledge-Oriented Retrieval-Augmented Generation - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/abs/2503.10677
[2405.07437] Evaluation of Retrieval-Augmented Generation: A Survey - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/abs/2405.07437
Retrieval Augmented Generation and Understanding in Vision: A Survey and New Outlook, 访问时间为四月 28, 2025， https://arxiv.org/html/2503.18016v1
Unveiling the Potential of Multimodal Retrieval Augmented Generation with Planning - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2501.15470v1
Parameters vs. Context: Fine-Grained Control of Knowledge Reliance in Language Models, 访问时间为四月 28, 2025， https://arxiv.org/html/2503.15888v1
A Survey of Query Optimization in Large Language Models - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2412.17558v1
RAG techniques - IBM, 访问时间为四月 28, 2025， https://www.ibm.com/think/topics/rag-techniques
LevelRAG: Enhancing Retrieval-Augmented Generation with Multi-hop Logic Planning over Rewriting Augmented Searchers - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2502.18139v1
Retrieval Augmented Generation Evaluation in the Era of Large Language Models: A Comprehensive Survey - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2504.14891v1
Hallucination Mitigation for Retrieval-Augmented Large Language Models: A Review - MDPI, 访问时间为四月 28, 2025， https://www.mdpi.com/2227-7390/13/5/856
RAG Optimization Tools are the Key to GenAI Accuracy - Shelf, 访问时间为四月 28, 2025， https://shelf.io/blog/rag-optimization-tools/
Searching for Best Practices in Retrieval-Augmented Generation - ACL Anthology, 访问时间为四月 28, 2025， https://aclanthology.org/2024.emnlp-main.981.pdf
RAG vs. Fine-tuning | IBM, 访问时间为四月 28, 2025， https://www.ibm.com/think/topics/rag-vs-fine-tuning
RAG vs. Fine-Tuning: How to Choose | Oracle United Kingdom, 访问时间为四月 28, 2025， https://www.oracle.com/uk/artificial-intelligence/generative-ai/retrieval-augmented-generation-rag/rag-fine-tuning/
A Survey on Knowledge-Oriented Retrieval-Augmented Generation - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2503.10677v2
RAG vs Fine Tuning LLMs: The Right Approach for Generative AI - Aisera, 访问时间为四月 28, 2025， https://aisera.com/blog/llm-fine-tuning-vs-rag/
How to Improve Retrieval Systems in AI Products - Newfront, 访问时间为四月 28, 2025， https://www.newfront.com/blog/how-to-improve-retrieval-systems-in-ai-products
RAG vs. fine-tuning: Choosing the right method for your LLM | SuperAnnotate, 访问时间为四月 28, 2025， https://www.superannotate.com/blog/rag-vs-fine-tuning
Retrieval-Augmented Generation vs Fine-Tuning: What's Right for You? - K2view, 访问时间为四月 28, 2025， https://www.k2view.com/blog/retrieval-augmented-generation-vs-fine-tuning/
RAG vs. fine-tuning - Red Hat, 访问时间为四月 28, 2025， https://www.redhat.com/en/topics/ai/rag-vs-fine-tuning
RAG Vs Fine Tuning: How To Choose The Right Method - Monte Carlo Data, 访问时间为四月 28, 2025， https://www.montecarlodata.com/blog-rag-vs-fine-tuning/
When do we use LLM fine tuning vs. LLM RAG? : r/OpenAI - Reddit, 访问时间为四月 28, 2025， https://www.reddit.com/r/OpenAI/comments/1bjtz7y/when_do_we_use_llm_fine_tuning_vs_llm_rag/
Hybrid Retrieval for Hallucination Mitigation in Large Language Models: A Comparative Analysis - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2504.05324v1
Grounded in Context: Retrieval-Based Method for Hallucination Detection - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2504.15771v1
[D] Real talk about RAG : r/MachineLearning - Reddit, 访问时间为四月 28, 2025， https://www.reddit.com/r/MachineLearning/comments/1cekoc7/d_real_talk_about_rag/
arXiv:2504.15629v1 [cs.IR] 22 Apr 2025, 访问时间为四月 28, 2025， https://www.arxiv.org/pdf/2504.15629
大语言模型的检索增强生成(RAG) 方法, 访问时间为四月 28, 2025， https://www.promptingguide.ai/zh/research/rag
(PDF) Retrieval Augmented Generation Evaluation in the Era of Large Language Models: A Comprehensive Survey - ResearchGate, 访问时间为四月 28, 2025， https://www.researchgate.net/publication/390991356_Retrieval_Augmented_Generation_Evaluation_in_the_Era_of_Large_Language_Models_A_Comprehensive_Survey
(PDF) Enhancing Retrieval-Augmented Generation Accuracy with Dynamic Chunking and Optimized Vector Search - ResearchGate, 访问时间为四月 28, 2025， https://www.researchgate.net/publication/388050476_Enhancing_Retrieval-Augmented_Generation_Accuracy_with_Dynamic_Chunking_and_Optimized_Vector_Search
Azure AI 搜索中的检索增强生成(RAG) - Learn Microsoft, 访问时间为四月 28, 2025， https://learn.microsoft.com/zh-cn/azure/search/retrieval-augmented-generation-overview
Evaluating RAG Part I: How to Evaluate Document Retrieval | deepset Blog, 访问时间为四月 28, 2025， https://www.deepset.ai/blog/rag-evaluation-retrieval
知识库搜索方案和参数| FastGPT, 访问时间为四月 28, 2025， https://doc.tryfastgpt.ai/docs/guide/knowledge_base/dataset_engine/
【元脑技术详解】改进三大关键环节，构建高精度大模型RAG知识库 ..., 访问时间为四月 28, 2025， https://www.ieisystem.com/about/news/16680.html
提高RAG 应用准确度，时下流行的Reranker 了解一下？ - Zilliz 向量 ..., 访问时间为四月 28, 2025， https://zilliz.com.cn/blog/rag-reranker-therole-and-tradeoffs
Common retrieval augmented generation (RAG) techniques ..., 访问时间为四月 28, 2025， https://www.microsoft.com/en-us/microsoft-cloud/blog/2025/02/04/common-retrieval-augmented-generation-rag-techniques-explained/
Graph-Based Re-ranking: Emerging Techniques, Limitations, and ..., 访问时间为四月 28, 2025， https://arxiv.org/abs/2503.14802
Graph-Based Re-ranking: Emerging Techniques, Limitations, and Opportunities - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2503.14802v1
the chronicles of rag: the retriever, the chunk - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2401.07883
开发RAG 解决方案- 信息检索阶段- Azure Architecture Center ..., 访问时间为四月 28, 2025， https://learn.microsoft.com/zh-cn/azure/architecture/ai-ml/guide/rag/rag-information-retrieval
RUC-NLPIR/LLM4IR-Survey - GitHub, 访问时间为四月 28, 2025， https://github.com/RUC-NLPIR/LLM4IR-Survey
HyperRAG: Enhancing Quality-Efficiency Tradeoffs in Retrieval-Augmented Generation with Reranker KV-Cache Reuse - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2504.02921v1
[Revue de papier] Graph-Based Re-ranking: Emerging Techniques, Limitations, and Opportunities - Moonlight, 访问时间为四月 28, 2025， https://www.themoonlight.io/fr/review/graph-based-re-ranking-emerging-techniques-limitations-and-opportunities
[Literature Review] Graph-Based Re-ranking: Emerging Techniques, Limitations, and Opportunities - Moonlight, 访问时间为四月 28, 2025， https://www.themoonlight.io/review/graph-based-re-ranking-emerging-techniques-limitations-and-opportunities
评估用于企业级RAG 的检索器 - ZENTEK 信弘智能, 访问时间为四月 28, 2025， http://www.zentek.com.cn/news/content/28
Advanced RAG Techniques - Cazton, 访问时间为四月 28, 2025， https://www.cazton.com/blogs/technical/advanced-rag-techniques
Improving Retrieval and RAG with Embedding Model Finetuning ..., 访问时间为四月 28, 2025， https://www.databricks.com/blog/improving-retrieval-and-rag-embedding-model-finetuning
“Kimi概念”降温，长文本“担不起”大模型的下一步 - 华尔街见闻, 访问时间为四月 28, 2025， https://wallstreetcn.com/articles/3711420
云搜索服务-企业搜索-KooSearch-华为云, 访问时间为四月 28, 2025， https://www.huaweicloud.com/product/css/koosearch.html
RAG 修炼手册｜RAG 敲响丧钟？大模型长上下文是否意味着向量检索 ..., 访问时间为四月 28, 2025， https://zilliz.com.cn/blog/will-long-contextllms-kill-rag-vectordatabase
企业搜索服务-KooSearch-华为云, 访问时间为四月 28, 2025， https://www.huaweicloud.com/product/koosearch.html
arxiv.org, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2409.09046
HyPA-RAG: A Hybrid Parameter Adaptive Retrieval-Augmented Generation System for AI Legal and Policy Applications - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2409.09046v2
多路召回实战_智能开放搜索OpenSearch(Open Search)-阿里云帮助 ..., 访问时间为四月 28, 2025， https://help.aliyun.com/zh/open-search/retrieval-engine-edition/multi-way-recall-actual-combat
RAG系统：数据越多效果越好吗？ · netease-youdao/QAnything Wiki ..., 访问时间为四月 28, 2025， https://github.com/netease-youdao/QAnything/wiki/RAG%E7%B3%BB%E7%BB%9F%EF%BC%9A%E6%95%B0%E6%8D%AE%E8%B6%8A%E5%A4%9A%E6%95%88%E6%9E%9C%E8%B6%8A%E5%A5%BD%E5%90%97%EF%BC%9F/c2e77061c0679cb610d66db8a106e0736dd49974
用于构建搜索和RAG 体验的Vertex AI API - Google Cloud, 访问时间为四月 28, 2025， https://cloud.google.com/generative-ai-app-builder/docs/builder-apis?hl=zh-cn
检索增强生成(RAG)：OceanBase在联通软研院的落地实践-数据库技术博客, 访问时间为四月 28, 2025， https://open.oceanbase.com/blog/15933541680
RAG 修炼手册｜如何评估RAG 应用？ - Zilliz Cloud 向量数据库, 访问时间为四月 28, 2025， https://zilliz.com.cn/blog/how-to-evaluate-rag-zilliz
什么是检索增强生成(RAG)？ - Google Cloud, 访问时间为四月 28, 2025， https://cloud.google.com/use-cases/retrieval-augmented-generation?hl=zh-CN
Advanced RAG Techniques | Weaviate, 访问时间为四月 28, 2025， https://weaviate.io/blog/advanced-rag
基于大语言模型知识问答应用落地实践– 知识召回调优（上） | 亚马逊AWS官方博客, 访问时间为四月 28, 2025， https://aws.amazon.com/cn/blogs/china/practice-of-knowledge-question-answering-application-based-on-llm-knowledge-base-construction-part-3/
理解RAG 应用- AI 辅助软件工程：实践与案例解析, 访问时间为四月 28, 2025， https://aise.phodal.com/agent-understand-rag.html
CAPRAG: A Large Language Model Solution for Customer Service and Automatic Reporting using Vector and Graph Retrieval-Augmented Generation - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2501.13993
arXiv:2504.15630v1 [cs.CL] 22 Apr 2025, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2504.15630
Context-Parametric Inversion:Why Instruction Finetuning Can Worsen Context Reliance - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2410.10796v3
BALCONI: BALancing CONtext and Internal Knowledge For Training Flexible LLMs | OpenReview, 访问时间为四月 28, 2025， https://openreview.net/forum?id=hPk92D2GJV
A System for Comprehensive Assessment of RAG Frameworks - arXiv, 访问时间为四月 28, 2025， https://www.arxiv.org/pdf/2504.07803
Unanswerability Evaluation for Retrieval Augmented Generation - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2412.12300v3
arxiv.org, 访问时间为四月 28, 2025， https://arxiv.org/abs/2503.19878
arXiv:2503.19878v1 [cs.CL] 25 Mar 2025, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2503.19878?
MIRAGE: A Metric-Intensive Benchmark for Retrieval-Augmented Generation Evaluation, 访问时间为四月 28, 2025， https://arxiv.org/html/2504.17137v1
ADL158《AI搜索与信息智能体》开启报名-ADL动态 - 中国计算机学会, 访问时间为四月 28, 2025， https://www.ccf.org.cn/Activities/Training/ADL/ADL/2025-04-14/841444.shtml
Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2501.09136v2
AN AGENTIC FRAMEWORK FOR GRAPH RETRIEVAL AUGMENTED GENERATION - OpenReview, 访问时间为四月 28, 2025， https://openreview.net/pdf?id=g2C947jjjQ
arxiv.org, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2501.11929
ALoFTRAG: Automatic Local Fine Tuning for Retrieval Augmented Generation - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2501.11929v1
arXiv:2503.01131v1 [cs.CL] 3 Mar 2025, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2503.01131
TOP100全球软件案例研究峰会, 访问时间为四月 28, 2025， https://top100.msup.com.cn/detail?id=17955
召回引擎版支持RAG方案 - 阿里云文档, 访问时间为四月 28, 2025， https://help.aliyun.com/zh/open-search/retrieval-engine-edition/recall-engine-version-supports-rag-scheme
DataFunCon 2024·北京站：大数据-大模型双核时代 - 百格活动, 访问时间为四月 28, 2025， https://www.bagevent.com/event/8811235?bag_track=bagevent
Advanced Retrieval Strategies - LlamaIndex, 访问时间为四月 28, 2025， https://docs.llamaindex.ai/en/stable/optimizing/advanced_retrieval/advanced_retrieval/
首个！腾讯云ES通过中国信通院检索增强生成（RAG）技术要求专项测试 - 数据观, 访问时间为四月 28, 2025， https://www.cbdio.com/BigData/2024-04/29/content_6177303.htm
Query2doc: Query Expansion with Large Language Models | Request PDF - ResearchGate, 访问时间为四月 28, 2025， https://www.researchgate.net/publication/376402610_Query2doc_Query_Expansion_with_Large_Language_Models
Understanding RAG (Part 2) : RAG Retrieval - DEV Community, 访问时间为四月 28, 2025， https://dev.to/parth_roy_a1ec4703407d025/understanding-rag-part-2-rag-retrieval-4m4j
Toolshed: Scale Tool-Equipped Agents with Advanced RAG-Tool Fusion and Tool Knowledge Bases - SciTePress, 访问时间为四月 28, 2025， https://www.scitepress.org/Papers/2025/133030/133030.pdf
arXiv:2412.17558v1 [cs.CL] 23 Dec 2024, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2412.17558?
Toolshed: Scale Tool-Equipped Agents with Advanced RAG-Tool Fusion and Tool Knowledge Bases - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2410.14594
Searching for Best Practices in Retrieval-Augmented Generation - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2407.01219
開發RAG 解決方案—Information-Retrieval 階段- Azure Architecture Center | Microsoft Learn, 访问时间为四月 28, 2025， https://learn.microsoft.com/zh-tw/azure/architecture/ai-ml/guide/rag/rag-information-retrieval
检索增强生成Retrieval-Augmented Generation, 访问时间为四月 28, 2025， https://bimsa.net/doc/notes/31059.pdf
arXiv:2504.08231v1 [cs.CL] 11 Apr 2025, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2504.08231?
How Query Expansion (HyDE) Boosts Your RAG Accuracy - Chitika, 访问时间为四月 28, 2025， https://www.chitika.com/hyde-query-expansion-rag/
arxiv.org, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2412.12300
Searching for Best Practices in Retrieval-Augmented Generation - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2407.01219v1
Out of Style: RAG's Fragility to Linguistic Variation - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2504.08231v1
Retrieval-Augmented Generation for AI-Generated Content: A Survey - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2402.19473v6
Towards Long Context RAG — LlamaIndex - Build Knowledge Assistants over your Enterprise Data, 访问时间为四月 28, 2025， https://www.llamaindex.ai/blog/towards-long-context-rag
FactCheck: Knowledge Graph Fact Verification Through Retrieval-Augmented Generation Using a Multi-Model Ensemble Approach, 访问时间为四月 28, 2025， https://thesis.unipd.it/retrieve/39ee02f8-f852-4aed-a5b6-25f8fedd4370/main.pdf
[AINews] MM1: Apple's first Large Multimodal Model - Buttondown, 访问时间为四月 28, 2025， https://buttondown.com/ainews/archive/ainews-mm1-apples-first-large-multimodal-model/
LlamaIndex Talk (AI Conference), 访问时间为四月 28, 2025， https://aiconference.com/wp-content/uploads/2023/10/Jerry-Lui-LlamaIndex-Talk-AI-Conference-1.pdf
advanced_rag_small_to_big.ipynb - Colab, 访问时间为四月 28, 2025， https://colab.research.google.com/github/sophiamyang/demos/blob/main/advanced_rag_small_to_big.ipynb
USTCAGI/Awesome-Papers-Retrieval-Augmented-Generation - GitHub, 访问时间为四月 28, 2025， https://github.com/USTCAGI/Awesome-Papers-Retrieval-Augmented-Generation
Hierarchical Indexing for Retrieval-Augmented Opinion Summarization - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2403.00435v1
HIRO: Hierarchical Information Retrieval Optimization - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2406.09979v1
Hierarchical Indexing for Retrieval-Augmented Opinion Summarization - MIT Press Direct, 访问时间为四月 28, 2025， https://direct.mit.edu/tacl/article/doi/10.1162/tacl_a_00703/125483/Hierarchical-Indexing-for-Retrieval-Augmented
HIRO: Hierarchical Information Retrieval Optimization - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2406.09979v2
Retrieval Augmented Generation (RAG) and Beyond: A Comprehensive Survey on How to Make your LLMs use External Data More Wisely - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2409.14924v1
Toward Optimal Search and Retrieval for RAG - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2411.07396v1
ArchRAG: Attributed Community-based Hierarchical Retrieval-Augmented Generation - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2502.09891v1
[2503.10150] Retrieval-Augmented Generation with Hierarchical Knowledge - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/abs/2503.10150
arXiv:2503.04973v1 [cs.CL] 6 Mar 2025, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2503.04973
Beyond RAG: Task-Aware KV Cache Compression for Comprehensive Knowledge Reasoning - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2503.04973v1
HyperRAG: Enhancing Quality-Efficiency Tradeoffs in Retrieval-Augmented Generation with Reranker KV-Cache Reuse | AI Research Paper Details - AIModels.fyi, 访问时间为四月 28, 2025， https://www.aimodels.fyi/papers/arxiv/hyperrag-enhancing-quality-efficiency-tradeoffs-retrieval-augmented
KVLink: Accelerating Large Language Models via Efficient KV Cache Reuse - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2502.16002v1
[2504.02921] HyperRAG: Enhancing Quality-Efficiency Tradeoffs in Retrieval-Augmented Generation with Reranker KV-Cache Reuse - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/abs/2504.02921
Papers by Yuwei An - AIModels.fyi, 访问时间为四月 28, 2025， https://www.aimodels.fyi/authors/arxiv/Yuwei%20An
‪Yihua Cheng‬ - ‪Google Scholar‬, 访问时间为四月 28, 2025， https://scholar.google.com/citations?user=E4AT_24AAAAJ&hl=en
Understanding and Optimizing Multi-Stage AI Inference Pipelines - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2504.09775v2
Understanding and Optimizing Multi-Stage AI Inference Pipelines - arXiv, 访问时间为四月 28, 2025， https://www.arxiv.org/pdf/2504.09775
Computation and Language - arXiv, 访问时间为四月 28, 2025， https://pdf.arxiv.org/list/cs.CL/new
RAGO: Systematic Performance Optimization for Retrieval-Augmented Generation Serving, 访问时间为四月 28, 2025， https://ar5iv.labs.arxiv.org/html/2503.14649
Does RAG Really Perform Bad For Long-Context Processing?, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2502.11444
arxiv.org, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2503.10720
Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG | Request PDF - ResearchGate, 访问时间为四月 28, 2025， https://www.researchgate.net/publication/388080924_Agentic_Retrieval-Augmented_Generation_A_Survey_on_Agentic_RAG
[2501.09136] Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/abs/2501.09136
asinghcsu/AgenticRAG-Survey: Agentic-RAG explores advanced Retrieval-Augmented Generation systems enhanced with AI LLM agents. - GitHub, 访问时间为四月 28, 2025， https://github.com/asinghcsu/AgenticRAG-Survey
Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2501.09136v1
Agentic Information Retrieval - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2410.09713v3
arXiv:2405.10467v4 [cs.AI] 6 Nov 2024, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2405.10467
(PDF) The Agentic AI Mindset - A Practitioner's Guide to Architectures, Patterns, and Future Directions for Autonomy and Automation - ResearchGate, 访问时间为四月 28, 2025， https://www.researchgate.net/publication/390958865_The_Agentic_AI_Mindset_-_A_Practitioner's_Guide_to_Architectures_Patterns_and_Future_Directions_for_Autonomy_and_Automation
Abul Ehtesham - CatalyzeX, 访问时间为四月 28, 2025， https://www.catalyzex.com/author/Abul%20Ehtesham
From RAG to Multi-Agent Systems: A Survey of Modern Approaches in LLM Development, 访问时间为四月 28, 2025， https://www.preprints.org/manuscript/202502.0406/v1
Agentic Large Language Models, a survey - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2503.23037v2
Parameters vs. Context: Fine-Grained Control of Knowledge Reliance in Language Models | Request PDF - ResearchGate, 访问时间为四月 28, 2025， https://www.researchgate.net/publication/390038931_Parameters_vs_Context_Fine-Grained_Control_of_Knowledge_Reliance_in_Language_Models
[2503.15888] Parameters vs. Context: Fine-Grained Control of Knowledge Reliance in Language Models - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/abs/2503.15888
Junfeng Fang - CatalyzeX, 访问时间为四月 28, 2025， https://www.catalyzex.com/author/Junfeng%20Fang
[Literature Review] Parameters vs. Context: Fine-Grained Control of Knowledge Reliance in Language Models - Moonlight, 访问时间为四月 28, 2025， https://www.themoonlight.io/review/parameters-vs-context-fine-grained-control-of-knowledge-reliance-in-language-models
[2504.14891] Retrieval Augmented Generation Evaluation in the Era of Large Language Models: A Comprehensive Survey - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/abs/2504.14891
arxiv.org, 访问时间为四月 28, 2025， https://arxiv.org/abs/2504.17137
Benchmarking Retrieval-Augmented Generation for Medicine | Request PDF - ResearchGate, 访问时间为四月 28, 2025， https://www.researchgate.net/publication/384207131_Benchmarking_Retrieval-Augmented_Generation_for_Medicine
arXiv:2504.17137v1 [cs.CL] 23 Apr 2025, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2504.17137
Retrieval Augmented Generation Evaluation in the Era of Large Language Models: A Comprehensive Survey | AI Research Paper Details - AIModels.fyi, 访问时间为四月 28, 2025， https://www.aimodels.fyi/papers/arxiv/retrieval-augmented-generation-evaluation-era-large-language
Enhancing RAG Context Recall with a Custom Embedding Model ..., 访问时间为四月 28, 2025， https://blog.spheron.network/enhancing-rag-context-recall-with-a-custom-embedding-model-step-by-step-guide
Unanswerability Evaluation for Retreival Augmented Generation | Request PDF - ResearchGate, 访问时间为四月 28, 2025， https://www.researchgate.net/publication/387140529_Unanswerability_Evaluation_for_Retreival_Augmented_Generation
Computation and Language - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/list/cs.CL/recent
[2412.12300] Unanswerability Evaluation for Retrieval Augmented Generation - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/abs/2412.12300
Unanswerability Evaluation for Retrieval Augmented Generation - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2412.12300v1
ModelArts Studio大模型即服务平台- 华为云, 访问时间为四月 28, 2025， https://www.huaweicloud.com/product/modelarts/studio.html