FairLex A Multilingual Benchmark for Evaluating Fairness in Legal Text Processing

FairLex: A Multilingual Benchmark for Evaluating Fairness in Legal Text Processing

FairLex:一个评估法律文本处理中的公平性的多语言基准

作者:Ilias ChalkidisTommaso PasiniSheng Zhang

Letizia TomadaSebastian Felix SchwemerAnders Søgaard

Abstract

提供了一套由四个数据集组成的基准测试集,用于评估预先训练过的语言模型的公平性,以及用于对下游任务进行微调的技术。我们的基准涵盖了四个司法管辖区(欧洲理事会、美国、瑞士和中国)、五种语言(英语、德语、法语、意大利语和汉语)以及五个属性(性别、年龄、地区、语言和法律领域)的公平性。在我们实验中,我们使用几种群概率微调技术来评估预先训练的语言模型,并表明性能群体差异在许多情况下是活跃的,而这些技术都不能保证公平,也不能一致地减轻群体差异。此外,我们对我们的结果提供了定量和定性的分析,突出了在法律自然语言处理中发展稳健性方法的开放挑战。

1 Introduction

法律的自然语言处理(NLP)(查尔基德斯和坎帕斯,2019年;阿莱特拉斯等人,2019年;钟等人,2020年;查尔基德斯等人,2022年)受到越来越多的关注。辅助技术可以加快法律研究或发现,极大地帮助律师、法官和书记员。它们还可以帮助法律学者研究判例法(Katz,2012;库佩特等人,2021年),提高外行人获得法律的机会,帮助社会学家和研究伦理学家揭露司法系统中的偏见(Angwin等人,2016年;德雷塞尔和法里德,2018年),甚至仔细审查决策本身(Bell等人,2021年)。

在法律方面,平等和不歧视的原则至关重要,尽管其定义在国际、区域和国内一级各不相同。例如,欧盟的非歧视法禁止直接和间接的歧视。 当一个人因性别、种族或族裔出身、残疾、性取向、宗教或信仰和年龄等原因受到的待遇不如在类似情况下的其他人时,就发生了直接歧视。 鉴于法律结果对个人的严重性,不能采用辅助技术以牺牲公平为代价来加快法律研究(Wachteretal.,2021),这可能也会降低人们对我们法律体系的信任(Barfield,2020)。

社会变革永远地塑造着我们的法律体系。这个话题值得高度关注,因为人工智能系统从历史数据中学习构成了比训练数据缺乏普遍性的风险,更重要的是,在未来决策中传递先前阻碍数据的偏见,从而以指数级增加它们的影响(德拉克罗瓦,2022)。

历史法律数据并不能平等地代表我们社会中的所有群体,而且往往反映了我们社会和法律制度中的社会偏见。当模型在生产过程中被部署时,它们可能会加剧这些偏见。例如,刑事司法已经经常受到种族偏见的强烈影响,在美国和英国,有色人种更容易被捕并受到更高的惩罚。

近年来,自然语言处理和机器学习文献引入了公平目标,通常来自罗尔斯机会平等的概念(Rawls,1971),以评估模型对受保护属性的区分程度。其中一些依赖于资源分配的概念,也就是说,反映了一种观点,即如果群体在用于诱导我们的模型的训练数据中,或者每组执行相同数量的训练迭代,就会被公平对待。这有时被称为关于公平的资源分配视角(Lundgard,2020)。相反,还有一种以能力为中心的公平方法(安德森,1999;Robeyns,2009),其目标是每组保留足够的资源,以达到类似的绩效水平,这是在法律程序中如何对待个人的最终重要因素。我们采用以能力为中心的公平性方法,并根据绩效均等(桥本等,2018)或同等风险(Donini等,2018)来定义公平性。

绩效差异(Hashimotoetal.,2018)指的是少数群体整体绩效高但绩效低的现象,原因是减少样本(非群体)的风险。由于一些组比其他组从表现出性能差异的模型和技术中获益更多,这可能会扩大这些组之间的差距。绩效差距违背了我们社会中所有群体获得公平和平等机会的理想。因此,我们将公平分类器定义为在所有组中具有相似性能(同等风险)的分类器(Donini等人,2018年)。

总之,我们采用这样一种观点,即现代世界的法律下(近似)平等要求我们的自然语言处理技术在敏感属性之间表现出(近似)相同的风险。对于每个人在法律下被平等对待,无论种族、性别、国籍或其他特征,NLP辅助技术需要(大约)对这些属性不敏感。在本工作中,我们考虑了三种类型的属性:

  • 人口统计数据:第一类包括相关当事人的人口统计信息,例如,案件中原告/被告的性别、性取向、国籍、年龄或种族。在这种情况下,我们的目标是减轻对特定群体的偏见,例如,一个模型对女性被告表现较差,或对黑人被告有偏见。我们可以进一步考虑涉及当事人法律地位的信息,例如,个人vs.公司,私人vs.公共 。
  • 区域:第二类包括区域信息,例如负责一个案件的法院。在这种情况下,我们的目标是减轻给定司法管辖区内不同地区之间的差异,例如,一个模型在由特定地区的法院产生或裁决的特定案件中表现得更好。
  • 法律主题:第三类包括关于争议主题的法律主题信息。在这种情况下,我们的目标是减轻不同的法律主题(领域)之间的差异,例如,一个模型在一个特定的法律领域中表现得更好,例如刑事案件。

Contributions:我们介绍了FairLex,它包括四个法律数据集(欧洲理事会、美国、瑞士联邦和中华人民共和国)、五种语言(英语、德语、法语、意大利语和中文)和各种敏感属性(性别、年龄、地区等)。我们发布了四个预先训练过的基于转换器的语言模型,每个模型都是为基准测试中的特定数据集(任务)定制的,它们可以用作基线模型(文本编码器)。我们用几种组鲁棒算法进行了实验,并对我们的结果进行了定量和定性的分析,突出了在法律自然语言处理中发展鲁棒性方法的开放挑战。

2 Relate Work

公平的机器学习 关于从偏数据中诱导近似公平模型的文献正在迅速增长。参见Mehrabi等人(2021年);Makhlouf等人(2021年);Ding等人(2021年)的近期调查。我们依赖于这些文献对公平的定义,以及我们在下面的实验中比较的算法。如前所述,我们采用了以能力为中心的方法来定义公平性,并根据绩效平价(桥本等人,2018)或相等风险(Donini等人,2018)来定义公平性。我们所评估的促进公平性的学习算法将在第4节中详细讨论。其中一些方法——群体分布稳健优化(Sagawa等人,2020年)和不变风险最小化(Arjovsky等人,2020年)——已经在仇恨言论的背景下进行了公平性评估(Koh等人,2021年)。

法律公平性 在法律(计算)应用程序的背景下研究公平的机器学习的历史是有限的。在一项经典研究中,Angwin等人(2016)分析了惩教罪犯管理档案(compa)系统的表现,该系统在美国用于假释风险评估(累犯预测)。该系统依赖于问卷和犯罪记录的137个特征。Angwin等人发现,黑人被错误地贴上高风险(再犯罪)标签的可能性几乎是白人的两倍,这揭示了该系统中存在严重的种族偏见。后来,该系统与德雷塞尔和法里德(2018)的众包工作者进行了比较。这些研究依赖于表格数据,而不涉及文本处理(例如,编码案例事实或决定)。

最近,Wang等人(2021b)利用中国刑事案件的数据集研究了法律判断的一致性。他们评估了跨区域和性别的基于LSTM模式的模型的一致性,并报告了跨性别之间存在严重的公平差距。他们还发现,对于更严重的犯罪,公平差距尤其严重。另一项工作(Rice等人,2019年;贝克·吉利斯,2021年;Gumusel等人,2022年)探索了关于种族和性别的表征偏差,分析在法律文本语料库中训练的词汇潜在表征。虽然我们同意表征偏见可能会潜在地加强不幸的偏见,但这些可能不会影响个人(或群体)的治疗。因此,我们专注于直接衡量下游应用程序的同等风险。

以前的工作集中于对具体案例、语言或算法的分析,但FairLex的目标是在法律领域内简化缓解偏差模型或算法的开发和测试。FairLex允许研究人员在覆盖四个司法管辖区(欧洲理事会、美国、瑞士联邦和中华人民共和国)、五种语言(英语、德语、法语、意大利

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值