RAG 基准测试(法律领域)测试数据集分享

最近的一部分工作,有在做RAG的benchmark。年初三四月份(2024)的时候,调研已有的测试方案测试数据集的时候,相关工作很少,只有一篇论文。

最近再看相关的测试数据集又多了一些。我们虽然也有构建数据集,但是还是相对少一些。今天分享一篇论文,RAG关于法律领域的测试数据集。通常这种数据集需要一些领域知识,才能更好的更充分的构建出来这个数据集。

实际上,评估RAG的能力,使用通用数据集是远远不够的。专门的领域测试数据集更权威和合理一些,更能够真实的反应RAG在实际使用场景中的能力。同理,RAG在法律领域的测试效果好,并不能证明在任何一个领域都可以。

论文原文地址:https://arxiv.org/pdf/2408.10343

一、构建好的数据集样例

人工构建好qa,其中span是文档的引用的起始位置。

还提供了原文的txt文件。在rag中可以直接入库测试。

二、论文快读

这篇论文介绍了一个名为 LegalBench-RAG 的新基准测试,它专门用于评估法律领域中检索增强生成(Retrieval-Augmented Generation, RAG)系统的检索步骤。以下是论文的主要内容概述:

  1. 引言:介绍了在法律领域中,RAG系统的重要性,这些系统结合了检索机制和大型语言模型(LLMs),用于上下文化生成。然而,现有的基准测试(如LegalBench)主要评估LLMs在法律问题上的推理能力,并没有专门评估RAG系统中检索组件的质量。

  2. 相关工作

    • 检索增强生成(RAG):描述了RAG系统的工作原理,包括上下文检索器和答案生成器。
    • RAG基准测试:讨论了现有的RAG基准测试,如RGB和RECALL,但指出它们通常在一般上下文中评估,而不是专门针对法律文本。
    • LegalBench:介绍了LegalBench基准测试,它包含162个任务,涵盖六种不同类型的法律推理,由法律专业人士设计。
  3. 基准测试数据集:LegalBench-RAG

    • 构建过程:详细描述了如何从LegalBench中的查询回溯到原始法律语料库中的位置,创建了包含6,858个查询-答案对的数据集。
    • 质量控制:强调了确保基准测试可靠性的重要性,包括映射注释类别到询问词、文档ID到描述,以及选择注释类别。
    • 数据集结构:介绍了数据集的两个主要组成部分:原始语料库和问答对。
  4. 使用LegalBench-RAG基准测试RAG系统

    • RAG管道中的超参数:讨论了在实现RAG管道时需要选择的各种超参数和设计决策。
    • 实验设置:介绍了使用LegalBench-RAG进行评估的实验设置,包括不同的RAG管道实现。
  5. 结果和讨论

    • 实验结果:展示了不同预处理策略和后处理方法对检索性能的影响。
    • 四个数据集的比较:分析了在四个不同数据集上的性能,发现PrivacyQA数据集最容易,而MAUD数据集最具挑战性。
  6. 结论:LegalBench-RAG是首个专门用于评估法律领域RAG系统检索组件的基准测试,它为评估检索精度和召回率提供了一个强大的框架。

三、数据集是如何构建的

3.1 法律专业人士设计手工制作

LegalBench 基准测试包含了 162 个任务,这些任务覆盖了六种不同类型的法律推理。这些任务是由法律专业人士设计和手工制作的,以确保它们不仅在实践中有用,而且能够引起律师的兴趣。

3.2 涵盖六种场景的任务

下面是这六种不同类型的法律推理的介绍:

  1. 合同理解:涉及解释和分析合同条款,以确定合同各方的权利和义务。这可能包括对合同中特定条款的解释,例如许可协议、保密协议(NDA)、转让条款等。

  2. 案例分析:评估对法律案例的理解和分析能力,这可能包括对案件事实、法律原则和法院裁决的推理。

  3. 法律条文应用:涉及将具体的法律条文应用到特定的情况或案例中,以确定法律后果。

  4. 事实模式匹配:要求识别特定事实模式或场景,并将其与相关的法律规则或原则相匹配。

  5. 法律论证构建:设计用来评估构建法律论证的能力,包括提出论点、提供支持论点的证据和推理。

  6. 多跳推理:涉及处理复杂的法律问题,可能需要结合多个法律概念、原则或案例来进行推理。

3.3 法律专业人士设计这些任务的过程的步骤

  • 需求分析:确定法律实践中需要解决的关键问题和挑战,以及如何通过人工智能技术来辅助解决这些问题。

  • 任务定义:明确每个任务的目标和要求,包括所需评估的法律推理类型和具体的评估标准。

  • 数据收集:收集相关的法律文本、案例和其他法律资料,作为构建任务的基础。

  • 标注和验证:由法律专业人士对收集到的法律文本进行标注,明确每个任务所需的输入和预期输出。这个过程可能包括对文本中的关键信息进行高亮显示、提供解释和推理的注释等。

  • 迭代改进:在初步设计的基础上,通过与法律专业人士的合作和反馈,不断迭代和改进任务设计,以提高任务的质量和实用性。

  • 测试和评估:在任务设计完成后,通过实际的测试和评估来验证任务的有效性和可靠性,确保它们能够准确评估 LLMs 的法律推理能力。

四、数据集详情

这个数据集通过追溯 LegalBench 中使用的查询上下文到它们在法律语料库中的原始位置,创建了一个包含 6,858 个查询-答案对的数据集。以下是该数据集的一些关键特点和构成:

  1. 数据集来源:LegalBench-RAG 数据集从四个不同的法律文档数据集中构建,包括 PrivacyQA(隐私问答)、Contract Understanding Atticus Dataset (CUAD)、Mergers and Acquisitions Understanding Dataset (MAUD) 和 Contract Natural Language Inference (ContractNLI)。

  1. 数据集规模:数据集涵盖了超过 7900 万字的法律文本,分布在 714 份不同的文档中。

  2. 查询-答案对:每个查询都与一个或多个相关文本片段(snippets)相关联,这些片段直接回答了查询。这些文本片段是从原始法律文档中精确提取的,包括文件路径、精确引用和文档内确切的字符索引。

  3. 人工注释:所有的查询-答案对都是由法律专家完全人工注释的,确保了数据集的准确性和相关性。

  4. 数据集结构:数据集围绕两个主要组成部分构建:原始语料库和 QA 对。原始语料库包括来自源数据集的文档,而 QA 对则直接链接到语料库中的文档。

  5. 描述性统计:数据集的统计信息显示,它由来自不同法律文档类型的文档组成,每个文档的长度和复杂性各不相同。

  6. LegalBench-RAG-mini:除了完整的 LegalBench-RAG 数据集外,论文还介绍了一个更轻量级的版本 LegalBench-RAG-mini,它包含从每个源数据集中选取的 194 个查询,以及相应的文档部分,共计 776 个查询。

  7. 质量控制:为了确保数据集的质量和可靠性,进行了彻底的手动检查,包括映射注释类别到询问词、文档 ID 到描述,以及选择注释类别。

五、如何下载数据集

5.1 从github上下载

LegalBench-RAG 数据集的 GitHub 仓库地址是:GitHub - ZeroEntropy-cc/legalbenchrag: The LegalBenchRAG Benchmark

5.2 直接下载

https://www.dropbox.com/scl/fo/r7xfa5i3hdsbxex1w6amw/AID389Olvtm-ZLTKAPrw6k4?rlkey=5n8zrbk4c08lbit3iiexofmwg&e=1&st=0hu354cq&dl=0

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值