RAG 评估框架 -- ARES

最新推荐文章于 2025-03-16 10:47:58 发布

Anooyman

最新推荐文章于 2025-03-16 10:47:58 发布

阅读量1.5k

点赞数 21

分类专栏： LLM RAG 人工智能文章标签：人工智能大语言模型 RAG 检索增强生成算法

本文链接：https://blog.csdn.net/Anooyman/article/details/135585696

版权

人工智能同时被 3 个专栏收录

13 篇文章

订阅专栏

LLM

7 篇文章

订阅专栏

RAG

6 篇文章

订阅专栏

原文

本文作者提出第一个为 RAG pipeline 的每个组成部分量身定制的 LLM 判断的自动化 RAG 评估系统 ARES（Automated RAG Evaluation System）。与现有的 RAG 评估系统不同，ARES 通过利用 PPI（Prediction-powered inference）产生评分的置信区间，为其预测提供终极保证。

具体步骤如下：

利用 LM 从语料库中构建 question-answer 对。
定义了三个不同的分类模型（评委）来对三个分数进行分类，这三个模型都是微调后的轻量模型。
使用 PPI 对不同的 RAG system 进行排名，以提高基于模型的评估准确性，并为 RAG 评分提供统计置信区间。

ARES 框架

在这里插入图片描述

LLM 生成合成数据集

本文主要是依靠 FLAN-T5 XXL 创建合成数据。为了过滤出低质量的查询，作者提出两种新颖的生成策略，每种策略生成相同数量的负样本。最终保证在评估上下文相关性和答案相关性时，正样本和负样本数量是一致的。

Weak Negative Generation 弱负生成

对于上下文相关性的负样本生成，作者随机抽取与给定合成查询无关的领域内（in-domain）段落。
对于答案忠实性和答案相关性的负样本生成，作者从其他段落中随机抽取综合生成（利用 FLAN-T5 XXL）的样本。

Strong Negative Generation 强负生成

对于上下文相关性的负样本生成，作者随机从被认定为是黄金段落（gold passage）的文档中抽取领域内（in-domain）段落。对于一个文档中只有一个段落的数据集，作者使用 BM25 来检索 top10 的段落并从中采样获得上下文相关性的负样本。
对于答案忠实性和答案相关性的负样本生成，作者使用 prompt FLAN-T5 XXL。

准备 LLM 评委

作者利用生成的数据集来微调三个轻量级LLMs，分别从三个方面评估 RAG 系统。

上下文相关性：查询返回段落是否与提问内容相关？
答案忠实性：生成答案是否忠实于查询返回段落？或者是否包含幻觉或者推断超出返回段落以外的内容？
答案相关性：生成答案是否与查询和返回段落相关？

对于上述的每个方面，均是使用一个微调后带分类器的独立 LLM 来区分样本的正负性。

对于每个串联的 query-document-answer，每个评委均需要针对不同方面将结果分为正类或者负类。

微调时，作者加入了人类偏好验证集合来评估每个 epoch 的结果，等连续三个 epoch 都没有改善时停止微调。

用置信区间对 RAG 系统进行排序

原则上是可以计算三个指标的平均分来评判 RAG 系统的好坏，但是可能会存在一定程度的噪音。因为这分数是通过未标记的合成数据微调的LLM评委的预测。简单来说没有人工标记，可能会有误差。

另外一个方法是只使用人类偏好的验证集合来进行评估，判断每个 RAG 系统与人类注释的一致性。但是这个方法需要人为标注可能会非常耗时耗力。

ARES 将两者结合起来使用 PPI 来预测系统得分。PPI 是一种统计方法，通过利用对更大的一组未注释数据点的预测来收紧对一小组注释数据点（即人类偏好验证集）的预测的置信区间。PPI 可以利用标记数据点和 ARES 对未注释数据点的判断预测，为 RAG 系统的性能构建更严格的置信区间。

PPI 使用人类偏好验证集上的 LLM 判断来学习 rectifier function，使用较大的无注释数据集中的每个 ML 预测结果构建 ML 模型性能的置信集。然后，使用置信集为 ML 模型的性能的平均结果创建更严格的置信区间。并且 PPI 允许用选定的概率水平估计置信区间（本文中作者选取标准的 95% alpha 概率作为置信区间）。

实验

指标

如何评定正确排名和 ARES 排名的相关性，作者引入了 Kendall’s tau，这是一个在信息检索领域广泛并且流行的评判指标，允许开发者凭借经验评估排名系统。
在这里插入图片描述

concordant pairs 定义为排序中的两个序数，其中序列中较早的值低于序列中较晚的值。
Discordant pairs 定义为排序中的两个序数，其中序列中较早的值大于序列中较晚的值。

在这里插入图片描述

PPI 的限制

在这里插入图片描述

当使用少于100个数据点进行上下文相关性和答案相关性分类时，ARES 的 Kendall’s tau 值平均下降到0.75以下。作者在探索的更广泛的数据集上发现了相同的模式，无论查询、文档或答案类型如何。因此，作者建议使用具有足够的PPI人类偏好验证集的ARES（例如，大于150-200个数据点的集）。

跨领域应用的优势和局限性

ARES 中使用的 LLM 评委的可推广性对于在专业领域部署框架至关重要，尤其是在难以收集域内查询、文档和答案的领域。因此，作者在如下三个方面测试了 ARES 中使用的 LLM 评委受到跨领域偏移的影响：

改变查询类型，使用针对 NQ 进行微调的评委来评估 FEVER 数据集上的 RAG 系统。（例如，从问题切换为陈述）
改变文档类型，使用针对 NQ 进行微调的评委来评估 MultiRC 数据集上的 RAG 系统。（例如，从维基百科文章切换到新闻文章）
同时改变查询类型和文档类型，使用针对 NQ 进行微调的评委来评估 ReCoRD 数据集上的 RAG 系统。（例如，从基于维基百科的QA数据集切换到基于新闻文章的陈述数据集）