大模型论文 | 34个RAG评估框架教你如何评估RAG效果！

AI Agent开发

于 2025-04-29 11:06:08 发布

阅读量932

点赞数 14

文章标签：自然语言处理语言模型 LLM 大模型 AI大模型 ai RAG

本文链接：https://blog.csdn.net/m0_56255097/article/details/147603830

版权

一、背景

检索增强生成（RAG）作为一种突破性方法论，通过整合外部知识显著提升了自然语言生成能力。该技术通过非参数学习、多源知识融合和垂直领域适配三大核心机制，使大语言模型能够基于权威实时数据生成既符合语境又准确可靠的响应，推动了自然语言处理系统的重大革新。

从宏观架构来看，这个融合语言模型与检索技术的复杂系统可划分为检索与生成两大模块。

检索模块：涵盖预处理、稠密/稀疏检索、重排序等核心操作
生成模块：包含检索规划、多源知识融合及逻辑推理等组件

系统还集成文档分块、向量嵌入、安全验证等上下游环节，整体效能既取决于各组件性能，更依赖于系统级的协同优化。

面对如此复杂的系统架构，如何建立兼顾整体与组件的评估体系成为关键课题。RAG 系统评估尤其面临三重挑战：

应用场景的广泛性
内部组件的异构性
技术迭代的动态性

三大挑战使得建立统一评估范式成为当前研究前沿。

为此，该篇综述作者系统梳理了近年来的 RAG 评估方法：

体系完整性——涵盖组件级与系统级评估；
方法多样性——包含传统统计指标与 LLM 时代的新型评估；
来源广泛性——整合结构化框架与前沿论文方法；
实践指导性——聚焦可量化指标与实际应用。

通过这种多维视角，为研究者提供评估优化 RAG 系统的完整工具箱。

二、如何进行RAG系统的评估

2.1 评估目标

RAG 系统的各个组件可以归结为解决两个核心问题：

真实信息的检索
生成与标准答案高度契合的响应

以上两个问题分别对应检索模块和生成模块的评估目标。

上图总结了检索组件和生成组件的评估目标。

检索组件:包含召回和排序两个主要阶段，二者的输出（相关文档）具有相似的评估方式。

相关性（相关文档 ↔ 查询）：评估检索到的文档与查询所需信息的匹配程度，衡量检索过程的精确性和针对性。
全面性（相关文档 ↔ 相关文档）：评估检索文档的多样性和覆盖范围，衡量系统是否全面捕捉了与主题相关的各类信息，确保检索结果能根据查询提供完整的视角。
准确性（相关文档 ↔ 候选文档）：对比候选文档集评估检索结果的精确度，衡量系统对相关文档的识别能力，以及能否给予高相关性文档更高评分。

生成组件:

相关性（响应 ↔ 查询）：衡量生成响应与初始查询意图及内容的契合度，确保响应内容切题且满足特定需求。
忠实度（响应 ↔ 相关文档）：评估生成响应是否准确反映相关文档的信息，衡量生成内容与源文档的一致性。
正确性（响应 ↔ 示例响应）：类似于检索组件的准确性指标，通过对比标准答案评估生成响应的准确度，检验响应内容的事实正确性和语境适配性。

2.2 传统评估方法

RAG 系统植根于信息检索(IR)与自然语言生成(NLG)两大传统领域，其评估体系沿袭了这两个领域的经典指标，主要从检索和生成两个维度进行评测。

2.2.1 信息检索相关指标

这类指标源自传统检索系统，根据是否考虑排序可分为两类：

非排序类指标:仅评估二元相关性（是否相关），不考虑项目在排序列表中的位置。
准确率/Hit@K：考察结果中真阳性与真阴性的比例

召回率@K：在前 k 个结果中，检索到的相关实例占全部相关实例的比例

精确率@K：在前 k 个结果中，相关实例占检索实例的比例

F1分数：精确率与召回率的调和平均数

排序类指标：关注相关项在排序列表中的位置分布。
平均倒数排名(MRR)：首个正确答案排名的倒数的平均值

归一化折损累积增益(NDCG)：对低位相关文档进行折损计算

平均精确率(MAP)：各查询平均精确率的均值

2.2.2 自然语言生成相关指标

自然语言生成相关指标着重评估文本输出的内容质量。

精确匹配(EM)：严格比对生成答案与标准答案的完全一致性，匹配得 1 分否则 0 分。通常需对答案进行标准化预处理（如转小写、去标点等）。
ROUGE：通过 n-gram 重叠度评估摘要质量，含 ROUGE-N（n 元语法）、ROUGE-L（最长公共子序列）等变体。
BLEU：基于 n-gram 精确率的机器翻译评估指标，会施加简短惩罚。虽广泛使用，但无法评估文本流畅度。
METEOR：改进版 BLEU，引入同义词匹配和词序惩罚机制：

BertScore：利用 BERT 等模型的上下文嵌入计算语义相似度，生成精确率、召回率和 F1 分数，对语义等价更敏感。
文本相似度：评估检索文档间的语义差异，可通过文档内相似度或文档间相似度计算：

覆盖率：检索到的相关文档占全部相关文档的比例：

困惑度(PPL)：衡量语言模型预测能力，基于交叉熵的指数形式：

2.2.3 上游预处理评估

随着 RAG 发展，语料预处理（分块和嵌入）的评估日趋重要。

分块评估分为两个层面：

内在指标：如关键词全覆盖率（要求关键词至少出现在一个检索块中）、完整上下文所需token数等
外在指标：分析不同分块方法对下游任务检索性能的影响，如比较 ROUGE、BLEU 等指标

嵌入模型评估方面，MTEB 和 MMTEB 已成为行业标准。

MTEB 涵盖 58 个数据集的 8 类任务，证明没有万能嵌入方案；
MMTEB 进一步扩展至 250+语言、500+任务，新增指令遵循、长文档检索等挑战场景。

2.3 基于大语言模型的评估方法

当前研究越来越多地采用 LLM 驱动的评估指标，这些指标为不同 RAG 模块的迭代优化提供了可量化的基准。这些方法主要可分为基于输出和基于表征的两大类。

2.3.1 基于LLM输出的评估方法

通过对 LLM 生成的文本格式输出进行内容识别或统计分析，其流程简洁直观，且不受 LLM 开源/闭源属性的限制。

通过提示工程让 LLM 对组件输出进行显式评分。例如 RAGAS和 Databricks Eval会向 GPT 裁判发出"检查回答是否得到检索上下文支持"或"评估回答对用户查询的完整度"等指令。
采用小样本提示设计，利用 GPT-4 判断生成答案与标准答案的匹配程度。
构建多智能体 LLM 框架评估检索性能，其相关性判断比传统方法更符合人类偏好。
提出基于抽象语法树(AST)的方法来量化 RAG 系统中的幻觉现象，该方法能有效监测外部 API 调用的准确性。这些方法通常受益于思维链推理技术。

新的统计指标：