【论文阅读】RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework

关键词: RAG评估工具​
论文地址:https://arxiv.org/abs/2408.01262

工具地址:https://github.com/gomate-community/rageval

​Intro

要构建垂直领域下的RAG评估验证集有两个挑战:
1、这类文档的收集和分析需要专业知识,带来的成本高的问题。
2、与通常要求模型生成相对简短的答案的开放领域QA任务不同,垂直领域的答案往往更加全面和详细,从而使其评估复杂化。

为了解决这两个问题,本文提出了RAGEval (schema-configuration-document-QAR-keypoint),用于在各种垂直领域中自动生成特定场景下的的RAG评估用例。这种环环相扣的设计,包括ans和ref的反向校验,主要是强调各个环节coherence和consistensy,保证数据集生成的准确性和事实性,尽可能降低幻觉影响。

具体来说,RAGEval首先收集一小组特定于领域的种子文档来总结一个schema,该schema是通过分析事实信息创建的,从而封装了基本的特定于领域的知识。然后在在某些规则的约束下,RAGEval根据该schema生成不同的configuration。进一步利用这些configuration来生成不同的文档。最后,生成的文档和配置都用于生成问题。然后使用问题、参考和答案的三元组来评估RAG的有效性。

关于评估指标,本文主要从3个维度,Completeness, Hallucination, and Irrelevance,关注RAG中LLM生成质量。

在这里插入图片描述

Method

Stage 1: Schema Summary

Schema 包括组织、类型、事件、日期和地点等关键元素,总结了场景的特征信息。
seed documentst + LLM -> schema
在这里插入图片描述
做schema提取的好处是增强文本生成的可控性,并支持生成与特定文档类型的结构模式一致的连贯的、适合领域的内容。

一个schema的例子:
在这里插入图片描述

Stage 2: Document Generation

这一步是为了生成具有丰富事实信息、逻辑一致性和内部一致性的虚拟文本。为了保持一致性,先做configuration生成(将内容填充到schema中),而不是直接生成doc
schema + LLM -> config
在这里插入图片描述
一个configuration的例子:
在这里插入图片描述
基于configuration和模型的先验知识进行文档生成,通过LLM提供更丰富的细节和描述复杂的关联关系,将configuration转化为文本文档。
config + LLM -> doc
在这里插入图片描述

Stage 3: QRA Generation

使用给定的文档D和配置C生成,问题-参考-答案(QRA)三元组

1、利用config + LLM -> 问题和初始答案
在这里插入图片描述
涉及的问题类别包括以下7种:
在这里插入图片描述
2、提取引用。捕获所有相关的参考资料,来支撑答案。使用构建的问题Q和初始答案A,我们利用提取prompt从doc中提取相关信息片段(参考文献)R
q, a, doc + LLM -> ref
在这里插入图片描述
3、优化答案和参考文献。
这一步保证答案和参考文献对齐

遵循以下原则:
如果参考R包含初始答案A中没有的内容,相应地补充答案。
相反,如果最初的答案A包含参考文献R中没有的内容,首先检查文章中是否有遗漏的参考文献。如果找到这样的R,将其添加到引用集中,并保持答案不变。如果没有找到相应的参考文献,从答案中删除不相关的内容。
(关于这步是否通过大模型实现,文中没有提到)
在这里插入图片描述
4、生成要点。涉及评估指标计算,在该评估框架中,评估答案不仅仅是关于正确或关键词匹配,而是答案覆盖的要点数。为了方便起见,从每个问题Q的标准答案A中生成要点。
通过answer + prompt + GPT-4o -> 3-5 key points
在这里插入图片描述

Datasets & Metrics

Datasets

接下来用前文提到的方式构造了一个名为DRAGONBall的数据集,数据集情况如下:
在这里插入图片描述
然后分别定义了检索和生成指标

Retrieval Metrics

Recall: 评估检索结果的ref和ground truth中的ref的match程度
在这里插入图片描述

n is the total number of ground truth references,
Gi denotes the i-th ground truth reference,
R = {R1, R2, . . . , Rk} represents the set of retrieved references,
M (Gi, R) is a boolean function that returns true if all sentences in Gi are found in at least one reference in R, and false otherwise,
I(·) is the indicator function, returning 1 if the condition is true and 0 otherwise.

Effective Information Rate (EIR):这个指标量化了检索段落中相关信息的比例,确保检索过程在信息内容方面既准确又有效。
在这里插入图片描述

Gi is the i-th ground truth reference,
Rt is the set of total retrieved passages,
m is the number of ground truth references successfully matched,
|Gi ∩ Rt| represents the number of words in the intersection of the i-th ground truth reference and the concatenated retrieved passages Rt, calculated only if Gi is matched in Rt
|Rj| represents the total number of words in the j-th retrieved passage
k is the total number of retrieved passages.

Generation Metrics

Completeness. :Completeness衡量生成的答案从ground truth中捕获key points的程度
在这里插入图片描述

where 1[·] is an indicator function that evaluates to 1 if the generated answer A semantically covers the key point ki, and 0 otherwise. Here, “covers” means that the generated answer contains information consistent with and correctly representing the key point.

Hallucination:"幻觉”会识别内容与关键点相矛盾的情况,突出显示潜在的不准确之处
在这里插入图片描述

where 1[·] is an indicator function that evaluates to 1 if the generated answer A contradicts the key point ki, and 0 otherwise.

Irrelevancy.:不相关性评估的是来自基本事实的关键点的比例,这些关键点既没有被生成的答案覆盖,也没有与之相矛盾。
在这里插入图片描述

Quality Assessment

文章首先对生成的QAR和doc质量进行了评估。
设立了如下评估标准,并通过人工评估的方式得出结论,本文的方法生成了QAR和doc是比较高质量的。
在这里插入图片描述
在这里插入图片描述在这里插入图片描述在这里插入图片描述
接下来是评估本文提出的评估框架和人工评估的一致性,通过从使用来自QAR质量评估的420个case,并要求人类裁判对来自“Baichuan-2-7B-chat”的答案进行评判,结论是双方差异低于0.015,验证了自动评估指标的可靠性,并确认了与人类判断的一致性。
在这里插入图片描述

Experiment

实验配置的retrieval和generate参数可以看下原文的设置。

Overall Model Performance Results.(Without irrelevant result)

1、2B模型依然有不错的表现,说明小模型也有在RAG场景超越更大模型的潜力
2、英文场景下Llama3-8B-Instruct更好,中文场景下Qwen1.5-14B-chat更好,符合直觉
3、GPT-4o虽🐮,但并没有展现出较大的优势,这表明,随着进一步的发展,开源模型有可能缩小性能差距。
在这里插入图片描述

Retrieve Model Performance Results

比较了几个向量模型在中英文场景下,检索和生成指标的得分,结论是 较高的Recall 和EIR得分通常会导致较好的completeness和hallucination得分
在这里插入图片描述

Hyperparameter Comparison

涉及retrieval和generation,必然少不了对topK和chunk大小的讨论
在这里插入图片描述
1、TopK的实验结果比较符合直觉,topK越大,recall越大,导致EIR更低,回答的完整性、幻觉和不相关性都更高,也许这就是多答多错🤣。
2、chunk大小在中英文上显现出差异,中文场景似乎更小的chunk表现更好,而英文场景则需要稍大一些的chunk。
3、retrieval和generation的表现并不一定一直正相关,需要trade-off,更重要的是根据不同场景和任务选择适合的模型和超参数配置。

Future work

拓展单独当前eval框架到更多场景,以及探索如何缩小开源模型和闭源模型在rag上的差距。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值