【论文阅读】RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework

Yanc_L

已于 2024-08-13 21:01:19 修改

阅读量798

点赞数 16

文章标签：论文阅读

于 2024-08-11 23:11:33 首次发布

本文链接：https://blog.csdn.net/qq_41502855/article/details/141113186

版权

关键词： RAG评估工具
论文地址：https://arxiv.org/abs/2408.01262

工具地址：https://github.com/gomate-community/rageval

Intro

要构建垂直领域下的RAG评估验证集有两个挑战：
1、这类文档的收集和分析需要专业知识，带来的成本高的问题。
2、与通常要求模型生成相对简短的答案的开放领域QA任务不同，垂直领域的答案往往更加全面和详细，从而使其评估复杂化。

为了解决这两个问题，本文提出了RAGEval （schema-configuration-document-QAR-keypoint），用于在各种垂直领域中自动生成特定场景下的的RAG评估用例。这种环环相扣的设计，包括ans和ref的反向校验，主要是强调各个环节coherence和consistensy，保证数据集生成的准确性和事实性，尽可能降低幻觉影响。

具体来说，RAGEval首先收集一小组特定于领域的种子文档来总结一个schema，该schema是通过分析事实信息创建的，从而封装了基本的特定于领域的知识。然后在在某些规则的约束下，RAGEval根据该schema生成不同的configuration。进一步利用这些configuration来生成不同的文档。最后，生成的文档和配置都用于生成问题。然后使用问题、参考和答案的三元组来评估RAG的有效性。

关于评估指标，本文主要从3个维度，Completeness, Hallucination, and Irrelevance，关注RAG中LLM生成质量。

在这里插入图片描述

Method

Stage 1: Schema Summary

Schema 包括组织、类型、事件、日期和地点等关键元素，总结了场景的特征信息。
seed documentst + LLM -> schema
在这里插入图片描述
做schema提取的好处是增强文本生成的可控性，并支持生成与特定文档类型的结构模式一致的连贯的、适合领域的内容。

一个schema的例子：
在这里插入图片描述

Stage 2: Document Generation

这一步是为了生成具有丰富事实信息、逻辑一致性和内部一致性的虚拟文本。为了保持一致性，先做configuration生成(将内容填充到schema中)，而不是直接生成doc
schema + LLM -> config
在这里插入图片描述
一个configuration的例子：

基于configuration和模型的先验知识进行文档生成，通过LLM提供更丰富的细节和描述复杂的关联关系，将configuration转化为文本文档。
config + LLM -> doc

Stage 3: QRA Generation

使用给定的文档D和配置C生成，问题-参考-答案(QRA)三元组

1、利用config + LLM -> 问题和初始答案
在这里插入图片描述
涉及的问题类别包括以下7种：

2、提取引用。捕获所有相关的参考资料，来支撑答案。使用构建的问题Q和初始答案A，我们利用提取prompt从doc中提取相关信息片段(参考文献)R
q, a, doc + LLM -> ref

3、优化答案和参考文献。
这一步保证答案和参考文献对齐

遵循以下原则:
如果参考R包含初始答案A中没有的内容，相应地补充答案。
相反，如果最初的答案A包含参考文献R中没有的内容，首先检查文章中是否有遗漏的参考文献。如果找到这样的R，将其添加到引用集中，并保持答案不变。如果没有找到相应的参考文献，从答案中删除不相关的内容。
（关于这步是否通过大模型实现，文中没有提到）
在这里插入图片描述
4、生成要点。涉及评估指标计算，在该评估框架中，评估答案不仅仅是关于正确或关键词匹配，而是答案覆盖的要点数。为了方便起见，从每个问题Q的标准答案A中生成要点。
通过answer + prompt + GPT-4o -> 3-5 key points
在这里插入图片描述

Datasets & Metrics

Datasets

接下来用前文提到的方式构造了一个名为DRAGONBall的数据集，数据集情况如下：
在这里插入图片描述
然后分别定义了检索和生成指标

Retrieval Metrics

Recall： 评估检索结果的ref和ground truth中的ref的match程度
在这里插入图片描述

n is the total number of ground truth references,
Gi denotes the i-th ground truth reference,
R = {R1, R2, . . . , Rk} represents the set of retrieved references,
M (Gi, R) is a boolean function that returns true if all sentences in Gi are found in at least one reference in R, and false otherwise,
I(·) is the indicator function, returning 1 if the condition is true and 0 otherwise.

Effective Information Rate (EIR)：这个指标量化了检索段落中相关信息的比例，确保检索过程在信息内容方面既准确又有效。
在这里插入图片描述

Gi is the i-th ground truth reference,
Rt is the set of total retrieved passages,
m is the number of ground truth references successfully matched,
|Gi ∩ Rt| represents the number of words in the intersection of the i-th ground truth reference and the concatenated retrieved passages Rt, calculated only if Gi is matched in Rt
|Rj| represents the total number of words in the j-th retrieved passage
k is the total number of retrieved passages.

Generation Metrics

Completeness. :Completeness衡量生成的答案从ground truth中捕获key points的程度
在这里插入图片描述

where 1[·] is an indicator function that evaluates to 1 if the generated answer A semantically covers the key point ki, and 0 otherwise. Here, “covers” means that the generated answer contains information consistent with and correctly representing the key point.

Hallucination:"幻觉”会识别内容与关键点相矛盾的情况，突出显示潜在的不准确之处
在这里插入图片描述

where 1[·] is an indicator function that evaluates to 1 if the generated answer A contradicts the key point ki, and 0 otherwise.

Irrelevancy.:不相关性评估的是来自基本事实的关键点的比例，这些关键点既没有被生成的答案覆盖，也没有与之相矛盾。
在这里插入图片描述

Quality Assessment

文章首先对生成的QAR和doc质量进行了评估。
设立了如下评估标准，并通过人工评估的方式得出结论，本文的方法生成了QAR和doc是比较高质量的。
在这里插入图片描述

接下来是评估本文提出的评估框架和人工评估的一致性，通过从使用来自QAR质量评估的420个case，并要求人类裁判对来自“Baichuan-2-7B-chat”的答案进行评判，结论是双方差异低于0.015，验证了自动评估指标的可靠性，并确认了与人类判断的一致性。
在这里插入图片描述

Experiment

实验配置的retrieval和generate参数可以看下原文的设置。

Overall Model Performance Results.(Without irrelevant result)

1、2B模型依然有不错的表现，说明小模型也有在RAG场景超越更大模型的潜力
2、英文场景下Llama3-8B-Instruct更好，中文场景下Qwen1.5-14B-chat更好，符合直觉
3、GPT-4o虽🐮，但并没有展现出较大的优势，这表明，随着进一步的发展，开源模型有可能缩小性能差距。
在这里插入图片描述

Retrieve Model Performance Results

比较了几个向量模型在中英文场景下，检索和生成指标的得分，结论是较高的Recall 和EIR得分通常会导致较好的completeness和hallucination得分
在这里插入图片描述

Hyperparameter Comparison

涉及retrieval和generation，必然少不了对topK和chunk大小的讨论
在这里插入图片描述
1、TopK的实验结果比较符合直觉，topK越大，recall越大，导致EIR更低，回答的完整性、幻觉和不相关性都更高，也许这就是多答多错🤣。
2、chunk大小在中英文上显现出差异，中文场景似乎更小的chunk表现更好，而英文场景则需要稍大一些的chunk。
3、retrieval和generation的表现并不一定一直正相关，需要trade-off，更重要的是根据不同场景和任务选择适合的模型和超参数配置。

Future work

拓展单独当前eval框架到更多场景，以及探索如何缩小开源模型和闭源模型在rag上的差距。