Abstract
LLMs 的兴起及其在法律界的应用引发了一个问题:LLMs 能够执行哪种类型的法律推理?为进一步研究这一问题,我们提出了 Legalbench:一个由协作构建的法律推理基准,涵盖了六种不同类型的法律推理,共162个任务。Legalbench 是通过跨学科过程构建的,在这个过程中,我们收集了由法律专业人士设计和精心制作的任务。由于这些主题专家在构建中起到了主导作用,任务要么测量实际有用的法律推理能力,要么测量律师感兴趣的推理技巧。为了促进关于法律中 LLMs 的跨学科对话,我们还展示了描述法律推理的流行法律框架——这些框架区分了其多种形式——与 Legalbench 任务之间的对应关系,从而为律师和 LLM 开发人员提供了一个共同的词汇。本论文描述了 Legalbench,展示了对 20 个开源和商业 LLMs 的实证评估,并阐明了 Legalbench 所启发的研究探索类型。
1. Introduction
LLMs 的进步正促使美国的律师和管理人员重新审视法律实践。LLMs 可能会改变律师处理从撰写简报到企业合规等任务的方式。这一观点的依据在于 LLMs 拥有一些特殊的属性,据称这些属性使它们更适合处理法律任务。这些模型从有限的标记数据中学习新任务的能力将减少通常会增加法律语言模型开发成本的数据标注工作。它们在复杂推理任务上的显著能力也使其非常适合法律这一需要解析晦涩文本和大量术语,并结合多种推理模式的严谨领域。
然而,现有的研究表明,LLMs 可能会生成具有冒犯性、误导性和事实错误的内容。如果这些行为在法律应用中重复发生,可能会造成重大伤害,许多潜在的负担将会落在边缘化和资源匮乏的群体上。因此,安全隐患凸显了在法律背景下建立 LLMs 基准测试基础设施和流程的迫切需要。
然而,那些寻求评估 LLMs 是否能够进行法律推理的实践者面临着重大挑战。第一个挑战是法律基准测试生态系统的有限性。现有的大多数基准测试,例如,侧重于通过微调或在任务特定数据上训练模型的任务。这些基准测试未能衡量LLMs在法律领域引发兴奋的方面,即它们只需少量样本提示便能执行多种任务的能力。相关的基准测试工作集中在职业资格考试上,但这些考试并不总是代表 LLMs 的实际用例。第二个挑战是现有基准测试与律师所理解的 “法律推理” 之间的差异。现有基准测试将所有涉及法律数据或法律的任务笼统地概括为 “法律推理” 的衡量标准。相比之下,律师认识到法律推理是一个涵盖多种不同类型推理的广泛术语。不同的法律任务需要不同的技能和知识体系。由于现有的法律基准未能区分这些差异,法律专业人员难以在他们对法律能力的理解中将现代LLMs的表现置于上下文中。简而言之:法律基准测试没有使用与法律行业相同的词汇或概念框架。
鉴于这些局限性,我们认为严格评估 LLMs 的法律推理能力需要法律界在基准测试过程中发挥更积极的作用。为此,我们提出了 Legalbench:朝着构建英文法律推理基准迈出的跨学科合作的第一步。在过去的一年里,本论文的作者凭借他们多元的法律和计算机科学背景,共同收集了162个任务(来自36个不同的数据源),每个任务都测量一种特定类型的法律推理。据我们所知,Legalbench 是第一个开源的法律基准测试项目。我们认为,这种由领域专家在评估任务的设计中发挥积极作用的基准测试构建方式展示了一种跨学科合作在LLMs研究中的实现路径。更重要的是,我们相信它还表明法律专业人员在 LLMs 在法律领域的评估和开发中发挥着至关重要的作用。
本文重点介绍了 Legalbench 的三个组成部分:
- Legalbench 是由现有的法律数据集和由法律专业人士创建和贡献的手工制作的数据集的混合而构建的。参与此次合作的法律专业人士被要求提供他们认为可以衡量有趣的法律推理技能的数据集,或者为法学硕士在法律中提供实际有用的应用。因此,Legalbench 任务的高性能提供了有用的信息,使律师能够验证他们对 LLM 法律能力的评估,或确定可以在他们的工作流程中使用的 LLM。
- Legalbench 任务被组织成一个广泛的类型,描述了执行任务所需的法律推理类型。由于这种类型取自法律界熟悉的框架,它使法律专业人士能够使用他们熟悉的术语和概念框架,有意义地参与 LLM 表现的讨论。
- Legalbench 旨在作为一个支持进一步研究的平台。对于缺乏法律专业知识的人工智能研究人员,Legalbench 为理解如何提示和评估不同的任务提供了重要的支持。随着越来越多的法律界开始关注 LLM 的潜在影响和作用,我们希望通过继续吸收和整合法律专业人士的任务来发展 Legalbench
本文做出了以下贡献:
- 提出了一种框架,用于根据法律任务所需的推理类型来组织和描述法律任务。这种框架取自律师用来描述法律推理的框架
- 概述了 Legalbench 中的任务,描述了构建这些任务的过程、异构性的重要维度和限制
- 使用 Legalbench 评估了来自 11 个不同系列的 20 个 LLM。我们对不同模型的性能进行了观察,并提出了对不同提示工程策略的初步研究。归根结底,这些结果旨在突出 Legalbench 可能实现的未来工作的不同方向
2. Related Work
3. The Legalbench Typology
3.1 Frameworks for legal reasoning
IRAC
美国法律学者通常将 “法律推理” 描述为在参考先前案例和成文法的基础上,确定一系列事件或情况所引发的法律条件的过程。执行这种法律推理的一种常见框架是 “问题、规则、应用和结论”(IRAC)框架。在这个框架中,法律推理被分解为四个顺序步骤:
- 首先,律师在一组给定的事实中确定法律问题(issue-spotting)。一个问题通常是(1)事实提出的一个特定的未解之谜的法律问题,或(2)与事实有关的法律领域。根据具体情况,律师可能会被告知问题,或者被要求推断可能的问题。
- 其次,律师确定与此问题相关的法律规则(rule-recall)。规则是一份法律声明,它规定了实现某些法律结果所必需(或充分)的条件。
- 第三,律师将这些规则应用于手头的事实(rule-application)。应用或对规则适用性的分析包括确定与规则最相关的事实,并确定这些事实如何影响规则下的结果。还可能涉及引用涉及类似规则的先前案例,并利用与这些案例的相似性或差异来确定当前争议的结果。
- 最后,律师就其法律对事实的适用得出结论,并确定这些事实的法律结果是什么(rule-conclusion)。
3.2 Evaluating legal reasoning in large language models
Legalbench 确定了六类法律推理
- issue-spotting
- rule-recall
- rule-conclusion
- rule-application
- interpretation: Legalbench 通过需要 LLM 解析和理解法律文本的任务来评估 interpretation。解释任务为 LLM 提供文本,并要求 LLM 提取相关信息、回答问题或按某些属性对文本进行分类。解释任务是 Legalbench 中研究最多且实际相关的任务之一,其中许多任务取自实际用例。
- rhetorical-understanding: Legalbench 通过需要 LLM 对法律论证和分析进行推理的任务来评估修辞理解。在这些任务中,法学硕士被提供法律论据(通常摘自司法意见),并要求确定它是否具有一定的功能或具有一定的属性。
4. Legalbench tasks
4.1 Construction process
4.2 Dimensions of variation
Task structure
Legalbench 任务还涵盖不同的格式:多项选择题(35 个任务)、开放式生成(7 个任务)、二分类(112 个任务)和多类/多标签分类(8 个任务)
Reasoning types and legal domains
Legalbench 为每个推理类别提供任务:rule-recall(5 个任务)、issue-spotting(16 个任务)、rule-application(16 个任务)、rule-conclusion(16 个任务)、interpretation(119 个任务)和 rhetorical-understanding(10 个任务)。任务主要来自涉及民事事项的法律领域,包括合同(58 项任务)、民事诉讼程序(8 项任务)、证据法(1 项任务)和公司法(58 项任务)
Language variation
法律语言具有高度的异质性,在不同的法律领域和文件类型中,句子结构、词汇和修辞风格各不相同。这对 LLM 来说是一个明显的挑战,LLM 对输入文本的结构和所使用的词汇量非常敏感。Legalbench 任务来自一组不同的法律语言类型,因此使研究人员能够研究不同类别的法律文本之间的性能差异。具体来说,Legalbench 包括来自通俗英语(32 个任务)、法律意见(11 个任务)、合并协议(34 个任务)、合同(55 个任务)、法定文本(3 个)和其他来源的语言任务。
4.3 Tasks
-
Abercrombie:特定商标(例如,产品或服务的名称)只有在被认为具有显著性的情况下才有资格获得商标保护。在评估商标是否具有显著性时,律师和法官遵循 Abercrombie & Fitch Co. v. Hunting World,Inc. 一案中提出的框架,该框架列举了五类显著性。这些类别表征了商标中使用的术语的字典定义与其所附加的服务或产品之间的关系。
- 通用性:如果名称表示产品或服务的基本性质,而不是产品的更个性化的特征,则该名称对于产品或服务而言是通用的。
- 描述性:如果名称标识了物品或服务的特征或质量,例如颜色、气味、功能、尺寸或成分,则名称是描述性的。
- 暗示性:如果名称暗示而不是描述其适用的商品或服务的某些特定特征,则该名称具有暗示性。暗示性名称的一个重要方面是,它要求消费者发挥想象力,以便对商品和服务的性质得出结论。
- 任意性:如果名称是一个 “真实” 的词,但对产品或服务来说似乎是 “任意的”,则该名称是任意的。例如,软件公司的 “Apple” 商标是任意的,因为苹果与软件无关。
- 虚构性:如果一个名字完全是虚构的,并且在英语词典中找不到,那么它就是幻想。例如,“Lanmbe” 是一个虚构的标记,因为它是一个虚构的词。
Abercrombie 任务需要 LLM 来确定:给定候选商标和产品/服务的描述,上述五个 Abercrombie 类别中的哪一个适用。
-
Canada Tax Court Outcomes:任务要求 LLM 对给定决定的摘录是否包括上诉结果进行分类,如果是,上诉是被允许还是被驳回。一些摘录不包括上诉的结果,在这种情况下,模型应返回 “其他”。如果摘录包括结果,并且全部或部分上诉是允许的,则模型应返回 “允许”。如果摘录包含结果,并且上诉被驳回,则模型应返回 “驳回”。该模型应忽略与上诉的最终结果无关的结果,例如费用裁决。
-
Citation Prediction Tasks:有两个引文预测任务。第一个(citation_prediction_classification)要求 LLM 预测给定的句子(即法律命题)是否得到给定案例的支持。第二个(citation_prediction_open)要求 LLM 预测支持所提供句子的案例。
-
Clause Classification Tasks:
-
CUAD Tasks:数据集由 500 个合同组成,每个合同都标注了多达 41 种不同的条款类型。这些合同的长度差异很大,从几页到一百多页不等。本文按如下方式调整 CUAD 数据集。从 41 个条款类别中选择 38 个。对于每个选定的类别,我们构建了一个数据集,该数据集由 (1) 分配给该类别的 CUAD 合同中的条款和 (2) 从其他类别随机抽样的相同数量的条款组成。这为条款类别生成了一个平衡的二元分类任务,其目的是确定哪些条款属于相应的类别。
-
J.Crew Blocker:J.Crew Blocker 任务需要确定贷款协议中的给定条款是否符合 J.Crew Blocker 的条件。为了做出这一决定,必须对该条款进行分析,以评估其是否包含:
- 禁止将知识产权资产转让给不受限制的子公司,和 / 或
- 要求获得贷款人的同意才能将知识产权转让给任何子公司。
如果该规定包括这些组件中的一个或两个,则可以将其归类为 J.Crew Blocker。否则,该规定不符合标准
-
Unfair Terms of Service:需要一个 LLM 来确定:它是否属于以下八个类别之一,如果是,则属于哪一个。
- Arbirtration:规定双方之间的所有争议都将通过仲裁解决的条款。
- Unilateral change:允许提供商修改服务条款和/或服务本身的条款。
- Content removal:赋予提供商修改/删除用户内容权利的条款
- Jurisdiction:指定必须提出索赔的司法管辖区的条款,无论用户居住在哪里。
- Choice of law:指定国家/地区法律的条款,该法律管辖因合同而产生的争议,无论用户居住在哪里。
- Limitation of liability:限制服务提供商责任的条款。
- Unilateral termination:授权服务提供商自行决定终止/暂停服务的条款。
- Contract by using:规定消费者仅通过使用服务即可受服务条款约束的条款。
-
Contract QA:数据集中的每个样本都包含 (1) 合同条款,以及 (2) 一个问题,询问该条款是否是条款类型的示例。在整个数据集中,这些问题对应于 22 个不同的法律规定。
-
-
Consumer Contracts QA:旨在检查 LLM 对某些消费者合同的理解程度。具体来说,该任务包括 200 个与热门网站服务条款相关的是/否法律问题。
-
Contract NLI Tasks:需要 LLM(给定合同的摘录和关于该摘录的法律效力的断言)来确定该断言是否得到摘录的支持。
-
Corporate Lobbying:要求 LLM 根据公司在其 SEC 10K 文件中的自我描述确定拟议的国会法案是否可能与公司相关。
-
Definition Tasks:给定最高法院意见的摘录,Definition Classification task 要求 LLM 确定摘录是否定义任何术语。Definition Extraction task 需要 LLM 来确定摘录正在定义哪个术语。
-
Diversity Jurisdiction:我们定义了六个不同的任务,每个任务都在不同的事实模式下测试多样性管辖权规则:
- diversity_1:由一名原告、一名被告和每对原告-被告一项索赔组成。
- diversity_2:由一名原告、两名被告和每对原告-被告一项索赔组成。
- diversity_3:由一名原告、一名被告和每对原告-被告两项索赔组成。
- diversity_4:由两名原告、一名被告和每对原告-被告一项索赔组成。
- diversity_5:由两名原告、一名被告和每对原告-被告两项索赔组成。
- diversity_6:由两名原告、两名被告和每对原告-被告两项索赔组成。
-
Function of Decision Section:给定一个法律决定的段落摘录,LLM 需要判断该段落在以下七个功能中的哪一个对整个决策的背景下起作用。
- Facts:裁决的一部分,叙述了引起争议的历史事件和各方之间的互动。
- Procedural History:决定的一部分,描述当事方先前的法律文件和导致该决定通过决定解决的问题的先前法院决定。
- Issue:决定中描述法院要考虑的法律或事实问题的部分。
- Rule:决定的一部分,陈述与解决案件相关的法律规则。
- Analysis:判决书的一部分,通过将适用的法律原则应用于案件事实来评估法院面前的问题
- Conclusion:裁决的一部分,阐明法院就提交给它的问题的结论。
- Decree:判决中宣布并生效法院对当事人争议的解决的部分,例如,批准或拒绝一方当事人的动议,或确认、撤销、推翻或发回下级法院的裁决。
-
Hearsay:鉴于法律问题和一项前瞻性证据,LLM 必须确定该证据是否构成上述测试下的传闻。
-
Insurance Policy Interpretation:要求 LLM 审查一对保险单和索赔,并确定保单是否明确涵盖索赔,明确不承保索赔,或者是否不清楚是否涵盖索赔。
-
International Citizenship Questions:该模型必须回答有关全球公民法的“是/否”问题。
-
Learned Hand Tasks:LLM 考虑一个人关于他们处境的叙述。LLM 必须使用这种叙述来确定哪些法律问题类别适用于该人的情况。
-
Legal Reasoning Causality:LLM 需要确定法院关于发现原告的受保护特征与涉嫌歧视性决定之间是否存在因果关系的推理是否依赖于统计或直接证明证据。它需要理解在任何给定上下文中用于描述统计证据的词语类型(回归、相关性、变量、控制等),以及这些词语与证实因果关系发现(而不是其他法律组成部分)相关的程度。
-
MAUD Tasks:这些任务利用了 MAUD 的阅读理解组件。给定一个关键法律条款和一组条款的描述,他们需要一个 LLM 来选择最能描述该条款的选项。
-
New York State Judicial Ethics:300 个真实世界的情景和事实模式已被重新表述为 “是” 或 “否” 问题,以了解模型是否理解道德规则以及它们如何适用于不同的司法情况。
-
OPP-115 Tasks:为每个类别创建了一个单独的二元分类任务,从文本的其余部分抽取否定样本。为确保一致性,已删除任何少于 10 个单词的文本。“其他”类别未包括在分类中,因为它被认为过于宽泛,在具体分类方面不会提供太多价值。
-
Purpose of Oral Argument Questions:给定口头辩论记录中的一个问题,要求 LLM 确定法官为了以下七个目的中的哪一个提出了这个问题。
- Background:寻求简报中遗漏或不清楚的事实或程序信息的问题
- Clarification:一个问题,旨在让辩护人澄清她的立场或所倡导的规则的范围。
- Implications:关于规则的局限性或其对未来案件的影响的问题。
- Support:一个支持辩护人立场的问题。
- Criticism:批评辩护人立场的问题。
- Communicate:主要用于与法庭上的一名或多名其他法官进行交流的问题。
- Humor:一个旨在在争论中插入幽默并缓解紧张的问题。
-
Overruling:在这项任务中,给定司法文本的摘录,需要 LLM 确定文本是否推翻了先前的决定。
-
Personal Jurisdiction:给定一个事实模式,描述导致法律索赔的事件,任务要求 LLM 确定一个特定的法院是否对被告具有属人管辖权。
-
Privacy Policy Entailment:鉴于隐私政策和实践描述中的条款,LLM 必须确定该条款是否描述了该实践的执行情况。这与蕴涵任务类似,其中前提是条款,假设是实践描述。
-
**Privacy Policy QA **:鉴于隐私政策的摘录和问题,LLM 必须确定摘录是否与回答问题相关。
-
Private Right of Action (PROA):LLM 必须确定法定条款是否包含私人诉讼权。
-
Rule QA:评估 LLM 回答有关不同法律规则的问题的能力。这些规则来自法学院第一年通常学习的科目(例如,民事诉讼程序、宪法等)。这是一项开放的生成任务。
-
SARA Tasks:有两个 SARA 任务。第一种是 sara_entailment,对应于蕴涵情况。蕴涵案例指出,给定的法律适用于给定的案例,并要求 LLM 产生一个二元答案——类似于识别文本蕴涵。这是现实世界法定推理的近似值,其中答案通常不是严格意义上的二元论。第二个任务(sara_numeric)由数值大小写组成。在这里,目标是计算所欠税款额。我们将其框定为浮点数。
-
SCALR:571 道多项选择题的集合,旨在评估大型语言模型的法律推理和阅读理解能力。每个多项选择题都给出了在特定最高法院案件中提交审查的问题。LLM 必须确定哪个选项描述了法院在回答所提出的问题时的裁决。
-
Securities Complaint Extraction:有三个提取任务:
- 原告任务需要 LLM 在文本中提取指定的原告。
- 个人被告任务需要 LLM 从文本中提取具名的被告,这些被告是个人。
- 公司被告任务需要 LLM 从文本中提取具名的被告,这些被告是公司。
-
Successor Liability:要求 LLM 发现继任者责任问题,并确定其相关的无责任例外。如果有多个例外相关,则 LLM 需要说明其他例外。这项任务不包括确定单纯的延续例外(企业和产品线的连续性)的两种变体。
-
Supply Chain Disclosure Tasks:本文基于现有的供应链披露数据集构建了这项任务。披露并编码数据集是否包括五个必需的披露主题中的每一个,如果是,这些主题的披露是否符合加州总检察长办公室概述的最佳实践。我们将这 10 个编码变量中的每一个都转换为不同的二元分类任务,从而产生 10 个任务。
-
Telemarketing Sales Rule:旨在测试 LLM 是否可以将简单的事实集分类为描述违反 TSR,或者不描述违反 TSR。
-
Textualism Tasks:要求 LLM 确定司法文本的摘录在执行法定解释时是否应用了特定的文本工具。有两个任务:
- 第一项任务是 plain-meaning(textualism_tool_plain),它需要 LLM 确定法院是否适用 plain-meaning 规则。plain-meaning 是指,成文法文本应按其普通含义进行解释。
- 第二项任务是 dictionaries(textualism_tool_dictionaries),它需要 LLM 来确定法院是否使用词典来定义法定文本
-
UCC vs Common Law:要求 LLM 确定合同是受 UCC 管辖还是受普通法管辖。