RAG 基准测试（法律领域）测试数据集分享

水的精神

已于 2024-09-16 17:36:06 修改

阅读量2.8k

点赞数 40

分类专栏： RAG 文章标签： RAG测试数据集法律测试数据集 RAG数据集论文

于 2024-09-16 17:23:40 首次发布

本文链接：https://blog.csdn.net/star1210644725/article/details/142287772

版权

RAG 专栏收录该内容

54 篇文章

订阅专栏

最近的一部分工作，有在做RAG的benchmark。年初三四月份（2024）的时候，调研已有的测试方案测试数据集的时候，相关工作很少，只有一篇论文。

最近再看相关的测试数据集又多了一些。我们虽然也有构建数据集，但是还是相对少一些。今天分享一篇论文，RAG关于法律领域的测试数据集。通常这种数据集需要一些领域知识，才能更好的更充分的构建出来这个数据集。

实际上，评估RAG的能力，使用通用数据集是远远不够的。专门的领域测试数据集更权威和合理一些，更能够真实的反应RAG在实际使用场景中的能力。同理，RAG在法律领域的测试效果好，并不能证明在任何一个领域都可以。

论文原文地址：https://arxiv.org/pdf/2408.10343

一、构建好的数据集样例

人工构建好qa，其中span是文档的引用的起始位置。

还提供了原文的txt文件。在rag中可以直接入库测试。

二、论文快读

这篇论文介绍了一个名为 LegalBench-RAG 的新基准测试，它专门用于评估法律领域中检索增强生成（Retrieval-Augmented Generation, RAG）系统的检索步骤。以下是论文的主要内容概述：

引言：介绍了在法律领域中，RAG系统的重要性，这些系统结合了检索机制和大型语言模型（LLMs），用于上下文化生成。然而，现有的基准测试（如LegalBench）主要评估LLMs在法律问题上的推理能力，并没有专门评估RAG系统中检索组件的质量。
相关工作：
- 检索增强生成（RAG）：描述了RAG系统的工作原理，包括上下文检索器和答案生成器。
- RAG基准测试：讨论了现有的RAG基准测试，如RGB和RECALL，但指出它们通常在一般上下文中评估，而不是专门针对法律文本。
- LegalBench：介绍了LegalBench基准测试，它包含162个任务，涵盖六种不同类型的法律推理，由法律专业人士设计。
基准测试数据集：LegalBench-RAG：
- 构建过程：详细描述了如何从LegalBench中的查询回溯到原始法律语料库中的位置，创建了包含6,858个查询-答案对的数据集。
- 质量控制：强调了确保基准测试可靠性的重要性，包括映射注释类别到询问词、文档ID到描述，以及选择注释类别。
- 数据集结构：介绍了数据集的两个主要组成部分：原始语料库和问答对。
使用LegalBench-RAG基准测试RAG系统：
- RAG管道中的超参数：讨论了在实现RAG管道时需要选择的各种超参数和设计决策。
- 实验设置：介绍了使用LegalBench-RAG进行评估的实验设置，包括不同的RAG管道实现。
结果和讨论：
- 实验结果：展示了不同预处理策略和后处理方法对检索性能的影响。
- 四个数据集的比较：分析了在四个不同数据集上的性能，发现PrivacyQA数据集最容易，而MAUD数据集最具挑战性。
结论：LegalBench-RAG是首个专门用于评估法律领域RAG系统检索组件的基准测试，它为评估检索精度和召回率提供了一个强大的框架。

三、数据集是如何构建的

3.1 法律专业人士设计手工制作

LegalBench 基准测试包含了 162 个任务，这些任务覆盖了六种不同类型的法律推理。这些任务是由法律专业人士设计和手工制作的，以确保它们不仅在实践中有用，而且能够引起律师的兴趣。

3.2 涵盖六种场景的任务

下面是这六种不同类型的法律推理的介绍：

合同理解：涉及解释和分析合同条款，以确定合同各方的权利和义务。这可能包括对合同中特定条款的解释，例如许可协议、保密协议（NDA）、转让条款等。
案例分析：评估对法律案例的理解和分析能力，这可能包括对案件事实、法律原则和法院裁决的推理。
法律条文应用：涉及将具体的法律条文应用到特定的情况或案例中，以确定法律后果。
事实模式匹配：要求识别特定事实模式或场景，并将其与相关的法律规则或原则相匹配。
法律论证构建：设计用来评估构建法律论证的能力，包括提出论点、提供支持论点的证据和推理。
多跳推理：涉及处理复杂的法律问题，可能需要结合多个法律概念、原则或案例来进行推理。

3.3 法律专业人士设计这些任务的过程的步骤

需求分析：确定法律实践中需要解决的关键问题和挑战，以及如何通过人工智能技术来辅助解决这些问题。
任务定义：明确每个任务的目标和要求，包括所需评估的法律推理类型和具体的评估标准。
数据收集：收集相关的法律文本、案例和其他法律资料，作为构建任务的基础。
标注和验证：由法律专业人士对收集到的法律文本进行标注，明确每个任务所需的输入和预期输出。这个过程可能包括对文本中的关键信息进行高亮显示、提供解释和推理的注释等。
迭代改进：在初步设计的基础上，通过与法律专业人士的合作和反馈，不断迭代和改进任务设计，以提高任务的质量和实用性。
测试和评估：在任务设计完成后，通过实际的测试和评估来验证任务的有效性和可靠性，确保它们能够准确评估 LLMs 的法律推理能力。

四、数据集详情

这个数据集通过追溯 LegalBench 中使用的查询上下文到它们在法律语料库中的原始位置，创建了一个包含 6,858 个查询-答案对的数据集。以下是该数据集的一些关键特点和构成：

数据集来源：LegalBench-RAG 数据集从四个不同的法律文档数据集中构建，包括 PrivacyQA（隐私问答）、Contract Understanding Atticus Dataset (CUAD)、Mergers and Acquisitions Understanding Dataset (MAUD) 和 Contract Natural Language Inference (ContractNLI)。

数据集规模：数据集涵盖了超过 7900 万字的法律文本，分布在 714 份不同的文档中。
查询-答案对：每个查询都与一个或多个相关文本片段（snippets）相关联，这些片段直接回答了查询。这些文本片段是从原始法律文档中精确提取的，包括文件路径、精确引用和文档内确切的字符索引。
人工注释：所有的查询-答案对都是由法律专家完全人工注释的，确保了数据集的准确性和相关性。
数据集结构：数据集围绕两个主要组成部分构建：原始语料库和 QA 对。原始语料库包括来自源数据集的文档，而 QA 对则直接链接到语料库中的文档。
描述性统计：数据集的统计信息显示，它由来自不同法律文档类型的文档组成，每个文档的长度和复杂性各不相同。
LegalBench-RAG-mini：除了完整的 LegalBench-RAG 数据集外，论文还介绍了一个更轻量级的版本 LegalBench-RAG-mini，它包含从每个源数据集中选取的 194 个查询，以及相应的文档部分，共计 776 个查询。
质量控制：为了确保数据集的质量和可靠性，进行了彻底的手动检查，包括映射注释类别到询问词、文档 ID 到描述，以及选择注释类别。