FairLex A Multilingual Benchmark for Evaluating Fairness in Legal Text Processing

FairLex: A Multilingual Benchmark for Evaluating Fairness in Legal Text Processing

FairLex:一个评估法律文本处理中的公平性的多语言基准

作者:Ilias ChalkidisTommaso PasiniSheng Zhang

Letizia TomadaSebastian Felix SchwemerAnders Søgaard

Abstract

提供了一套由四个数据集组成的基准测试集,用于评估预先训练过的语言模型的公平性,以及用于对下游任务进行微调的技术。我们的基准涵盖了四个司法管辖区(欧洲理事会、美国、瑞士和中国)、五种语言(英语、德语、法语、意大利语和汉语)以及五个属性(性别、年龄、地区、语言和法律领域)的公平性。在我们实验中,我们使用几种群概率微调技术来评估预先训练的语言模型,并表明性能群体差异在许多情况下是活跃的,而这些技术都不能保证公平,也不能一致地减轻群体差异。此外,我们对我们的结果提供了定量和定性的分析,突出了在法律自然语言处理中发展稳健性方法的开放挑战。

1 Introduction

法律的自然语言处理(NLP)(查尔基德斯和坎帕斯,2019年;阿莱特拉斯等人,2019年;钟等人,2020年;查尔基德斯等人,2022年)受到越来越多的关注。辅助技术可以加快法律研究或发现,极大地帮助律师、法官和书记员。它们还可以帮助法律学者研究判例法(Katz,2012;库佩特等人,2021年),提高外行人获得法律的机会,帮助社会学家和研究伦理学家揭露司法系统中的偏见(Angwin等人,2016年;德雷塞尔和法里德,2018年),甚至仔细审查决策本身(Bell等人,2021年)。

在法律方面,平等和不歧视的原则至关重要,尽管其定义在国际、区域和国内一级各不相同。例如,欧盟的非歧视法禁止直接和间接的歧视。 当一个人因性别、种族或族裔出身、残疾、性取向、宗教或信仰和年龄等原因受到的待遇不如在类似情况下的其他人时,就发生了直接歧视。 鉴于法律结果对个人的严重性,不能采用辅助技术以牺牲公平为代价来加快法律研究(Wachteretal.,2021),这可能也会降低人们对我们法律体系的信任(Barfield,2020)。

社会变革永远地塑造着我们的法律体系。这个话题值得高度关注,因为人工智能系统从历史数据中学习构成了比训练数据缺乏普遍性的风险,更重要的是,在未来决策中传递先前阻碍数据的偏见,从而以指数级增加它们的影响(德拉克罗瓦,2022)。

历史法律数据并不能平等地代表我们社会中的所有群体,而且往往反映了我们社会和法律制度中的社会偏见。当模型在生产过程中被部署时,它们可能会加剧这些偏见。例如,刑事司法已经经常受到种族偏见的强烈影响,在美国和英国,有色人种更容易被捕并受到更高的惩罚。

近年来,自然语言处理和机器学习文献引入了公平目标,通常来自罗尔斯机会平等的概念(Rawls,1971),以评估模型对受保护属性的区分程度。其中一些依赖于资源分配的概念,也就是说,反映了一种观点,即如果群体在用于诱导我们的模型的训练数据中,或者每组执行相同数量的训练迭代,就会被公平对待。这有时被称为关于公平的资源分配视角(Lundgard,2020)。相反,还有一种以能力为中心的公平方法(安德森,1999;Robeyns,2009),其目标是每组保留足够的资源,以达到类似的绩效水平,这是在法律程序中如何对待个人的最终重要因素。我们采用以能力为中心的公平性方法,并根据绩效均等(桥本等,2018)或同等风险(Donini等,2018)来定义公平性。

绩效差异(Hashimotoetal.,2018)指的是少数群体整体绩效高但绩效低的现象,原因是减少样本(非群体)的风险。由于一些组比其他组从表现出性能差异的模型和技术中获益更多,这可能会扩大这些组之间的差距。绩效差距违背了我们社会中所有群体获得公平和平等机会的理想。因此,我们将公平分类器定义为在所有组中具有相似性能(同等风险)的分类器(Donini等人,2018年)。

总之,我们采用这样一种观点,即现代世界的法律下(近似)平等要求我们的自然语言处理技术在敏感属性之间表现出(近似)相同的风险。对于每个人在法律下被平等对待,无论种族、性别、国籍或其他特征,NLP辅助技术需要(大约)对这些属性不敏感。在本工作中,我们考虑了三种类型的属性:

  • 人口统计数据:第一类包括相关当事人的人口统计信息,例如,案件中原告/被告的性别、性取向、国籍、年龄或种族。在这种情况下,我们的目标是减轻对特定群体的偏见,例如,一个模型对女性被告表现较差,或对黑人被告有偏见。我们可以进一步考虑涉及当事人法律地位的信息,例如,个人vs.公司,私人vs.公共 。
  • 区域:第二类包括区域信息,例如负责一个案件的法院。在这种情况下,我们的目标是减轻给定司法管辖区内不同地区之间的差异,例如,一个模型在由特定地区的法院产生或裁决的特定案件中表现得更好。
  • 法律主题:第三类包括关于争议主题的法律主题信息。在这种情况下,我们的目标是减轻不同的法律主题(领域)之间的差异,例如,一个模型在一个特定的法律领域中表现得更好,例如刑事案件。

Contributions:我们介绍了FairLex,它包括四个法律数据集(欧洲理事会、美国、瑞士联邦和中华人民共和国)、五种语言(英语、德语、法语、意大利语和中文)和各种敏感属性(性别、年龄、地区等)。我们发布了四个预先训练过的基于转换器的语言模型,每个模型都是为基准测试中的特定数据集(任务)定制的,它们可以用作基线模型(文本编码器)。我们用几种组鲁棒算法进行了实验,并对我们的结果进行了定量和定性的分析,突出了在法律自然语言处理中发展鲁棒性方法的开放挑战。

2 Relate Work

公平的机器学习 关于从偏数据中诱导近似公平模型的文献正在迅速增长。参见Mehrabi等人(2021年);Makhlouf等人(2021年);Ding等人(2021年)的近期调查。我们依赖于这些文献对公平的定义,以及我们在下面的实验中比较的算法。如前所述,我们采用了以能力为中心的方法来定义公平性,并根据绩效平价(桥本等人,2018)或相等风险(Donini等人,2018)来定义公平性。我们所评估的促进公平性的学习算法将在第4节中详细讨论。其中一些方法——群体分布稳健优化(Sagawa等人,2020年)和不变风险最小化(Arjovsky等人,2020年)——已经在仇恨言论的背景下进行了公平性评估(Koh等人,2021年)。

法律公平性 在法律(计算)应用程序的背景下研究公平的机器学习的历史是有限的。在一项经典研究中,Angwin等人(2016)分析了惩教罪犯管理档案(compa)系统的表现,该系统在美国用于假释风险评估(累犯预测)。该系统依赖于问卷和犯罪记录的137个特征。Angwin等人发现,黑人被错误地贴上高风险(再犯罪)标签的可能性几乎是白人的两倍,这揭示了该系统中存在严重的种族偏见。后来,该系统与德雷塞尔和法里德(2018)的众包工作者进行了比较。这些研究依赖于表格数据,而不涉及文本处理(例如,编码案例事实或决定)。

最近,Wang等人(2021b)利用中国刑事案件的数据集研究了法律判断的一致性。他们评估了跨区域和性别的基于LSTM模式的模型的一致性,并报告了跨性别之间存在严重的公平差距。他们还发现,对于更严重的犯罪,公平差距尤其严重。另一项工作(Rice等人,2019年;贝克·吉利斯,2021年;Gumusel等人,2022年)探索了关于种族和性别的表征偏差,分析在法律文本语料库中训练的词汇潜在表征。虽然我们同意表征偏见可能会潜在地加强不幸的偏见,但这些可能不会影响个人(或群体)的治疗。因此,我们专注于直接衡量下游应用程序的同等风险。

以前的工作集中于对具体案例、语言或算法的分析,但FairLex的目标是在法律领域内简化缓解偏差模型或算法的开发和测试。FairLex允许研究人员在覆盖四个司法管辖区(欧洲理事会、美国、瑞士联邦和中华人民共和国)、五种语言(英语、德语、法语、意大利语和汉语)和各种敏感属性(性别、年龄、地区等)的四个数据集上探索公平性。此外,我们提供了有竞争力的基线,包括预先训练的基于转换器的语言模型,适用于所检查的数据集,以及在第4节中详细描述的四组鲁棒算法的性能的独立检查。

基线分析:基准数据集的快速发展对NLP产生了冲击,这些基准数据集旨在评估预先训练的语言模型在不同目标下的性能: 一般自然语言理解(NLU) (Wang et al.,019b, a),跨语言转移(CLT) (Hu et al., 2020),甚至是生物医学领域的特定领域(Peng et al., 2019),或法律领域(Chalkidis .et al., 2022) NLP任务。尽管它们有价值,但最近的工作对所谓的NLU基准的一些限制提出了批评(保拉达等人,2020;鲍曼和达尔,2021;拉吉等人,2021年)。主要问题是:糟糕的(自由放任的)数据集开发(例如,缺乏多样性,虚假的相关性),法律问题(例如,数据许可和个人信息泄露),构建有效性(例如,实验设置差,不明确的研究问题),“一般”能力问题,以及对表面竞争力的促进(炒作,甚至伪造,最先进的结果)。我们认为,FairLex是一个特定于领域的(面向法律的)基准测试套件,它克服(或至少减轻)了上述的一些限制。我们在第1节中介绍了核心动机,而在第3节中描述了具体的(逐个情况的)细节。我们的基准测试是开放式的,不可避免地有几个限制;我们将在第7节和第8节中报告已知的局限性和伦理考虑。尽管如此,我们相信它将有助于在公平领域的批判性研究。

3基准数据集

ECtHR 欧洲人权法院(ECtHR)听取了关于一个国家违反了《欧洲人权公约》(ECHR)的人权规定的指控。我们使用Chalkidis等人(2021年)的数据集,其中包含了来自ECtHR公共数据库的11K个病例。每个案例都被映射到被违反的ECHR的文章(如果有的话)。这是一个多标签的文本分类任务。鉴于一个案件的事实,目标是预测违反的条款,如法院决定(裁决)。这些案例按时间顺序分为培训(9k、2001-16)、开发(1k、2016-17)和测试(1k、2017-19)集。

为了便于对文本分类器的公平性进行研究,我们为每个案例记录了以下属性:(a)被告陈述,这是据称违反了ECHR的欧洲国家。被告陈述的每个案件都是欧洲委员会47个成员国的一个子集;要有统计支持,我们将被告州分为两组中欧-东欧国家,一方面,和所有其他国家,作为分类的欧洲联盟同义词典。(b)申请人在作出决定时的年龄。如果可能的话,我们从案件事实中提取申请人的出生年份,并将其案件划分为一个年龄组(≤35,≤64岁或以上);©申请人的性别,如果可能的话,根据代词或其他性别词汇,分为两类(男性、女性)。

在这里插入图片描述

表1:FairLex数据集(ECtHR、SCOTUS、FSCS、CAIL)的主要特征。我们报告被检查的任务、类的数量、被检查的属性和每个属性的组的数量(#N)。

SCOTUS 美国最高法院(SCOTUS)是美利坚合众国的最高联邦法院,通常只审理下级法院没有充分解决的最具争议或最复杂的案件。我们将来自SCOTUS意见的信息与最高法院数据库(SCDB)7(Spaeth等人,2020年)相结合。SCDB为所有案例提供元数据(例如,发布日期、决策、问题、决策方向等)。我们考虑了现有的14个主题问题领域(例如,刑事诉讼、公民权利、经济活动等)。作为标签。这是一个单标签的多类文档分类任务。根据法院的意见,目标是预测争议(争议)的问题领域。SCOTUS共包含9262个案例,我们按时间顺序分为80%用于培训(7.4k,1946-1982年),10%用于发展(914,1982-1991年)和10%用于测试(931,1991-2016年)。

从SCDB中,我们还使用以下属性来研究公平性:(a)受访者的类型,它是将受访者(被告)分为五类(个人、公共实体、组织、设施和其他);©决定的方向,即决定是自由的,还是保守的。

FSCS 瑞士联邦最高法院(FSCS)是瑞士的最后一次上诉,与SCOTUS类似,该法院通常只审理最具争议或最复杂的案件,这些案件没有得到下级法院充分很好地解决。最高法院通常只关注之前裁决的一小部分,在那里他们讨论了下级法院可能存在的错误推理。瑞士-判断-预测数据集(Niklausetal.,2021)包含了2000年至2020年用三种语言(50K德语、31K法语、4K意大利语)之一编写的FSCS的超过85K决策。数据集为简化的二进制(批准、驳回)分类任务提供标签。鉴于案件的事实,其目的是预测原告的请求是否有效或部分有效。这些案例还按时间顺序分为训练(59.7k、2000-2014年)、开发(8.2k、2015-2016年)和测试(17.4k、2017-2020年)集。

原始数据集提供了三个额外的属性:(a)FSCS书面判决的语言,德语、法语或意大利语;(b)案件的法律领域(例如,公共、刑法)来自听取判决的法院;©表示联邦地区的发源地。

CAIL 中国最高人民法院是中国最后一级上诉法院,审理由最高人民法院提起的有关国家重要事项的案件。中国人工智能和法律挑战(CAIL)数据集(Xiaoetal.,2018)是一个用于判断预测的中国法律自然语言处理数据集,包含超过100万起刑事案件。该数据集为刑法预测、指控(犯罪类型)预测、刑期(期间)预测和罚金预测等相关文章提供了标签。

最近,Wang等人(2021b)重新注释了约值的一个子集。10万个具有人口统计学属性的案例。具体来说,新的数据集已经标注为:(a)申请人的性别,分为两类(男性,女性);(b)是法院判决7个省级行政区域的区域。我们按时间顺序将数据集重新分为训练集(80k、2013-2017)、开发集(12k、2017-2018)和测试集(12k、2018)集。在我们的研究中,我们重新构建了监禁期限预测,并检查了一个软版本,称为犯罪严重程度预测任务,一个多类分类任务,其中给定一个案件的事实,目标是预测犯罪行为对监禁期限有多严重。我们根据监禁期限来估计犯罪的严重程度,分为6个组(0、≤12、≤36、≤60、≤120,>120个月)。

4微调算法

在整个实验中,我们的主要目标是找到一个风险R(h)最小的假设:

在这里插入图片描述

其中,y是目标(真实值),h(x)=ˆy是系统假设(模型的预测)。

与之前的研究类似,R(h)是对所选择的损失函数(L)的期望。在这项工作中,我们研究了多标签文本分类(第3节),因此我们的目标是最小化在L类之间的二进制交叉熵损失:

在这里插入图片描述

ERM (Vapnik,1992)是经验风险最小化的代表,是训练神经方法的最标准和最广泛使用的优化技术。该损失的计算方法如下:在这里插入图片描述

其中,N是一批处理中的实例数(训练示例),Li是每个实例的损失。

除了ERM之外,我们还考虑了一种具有代表性的群体鲁棒微调算法,该算法旨在减轻与给定属性(A)相关的性能差异,例如,申请人的性别或法院的地区。每个属性被分成G组,即性别上的男性/女性。 所有的算法都依赖于一个平衡的组采样器,即,每个组(NG)包含相同数量的实例。 大多数算法建立在群智损失(Lg)的基础上,计算公式如下: 在这里插入图片描述

Group DRO (Sagawaetal.,2020),代表群体分布鲁棒优化(DRO)。组DRO是组统一算法的一个扩展,其中组级损失的加权与组训练性能成反比。总损失为:在这里插入图片描述

其中G是组(标签)的数量,Lg是组(标签)的平均损失,wg是组(标签)权重,wˆg是在前一个更新步骤中计算的组(标签)权重。最初,体重质量在各组中平均分布。

V-REx (Kruegeretal.,2020),代表风险外推,是另一种被提出的群概率优化算法。Krueger等人(2020)假设,不同训练组之间的变化代表了后来在测试时遇到的变化,因此他们也考虑了不同组间损失之间的方差。在V-REx中,总损失的计算方法如下:在这里插入图片描述

其中,Var为组级损失和λ,一个加权超参数标量之间的方差。

IRM (Arjovskyetal.,2020)是不变风险最小化的缩写,主要目的是惩罚组间多个训练虚拟估计器的方差,即在对应于同一组的样本中表现不能变化。总损失的计算方法如下:在这里插入图片描述

关于群体处罚条款(Pg)的定义,请参考Arjovsky等人(2020年)。

对抗性移除 (Elazar和戈德堡,2018)算法通过一个额外的对抗性分类器来减轻群体差异(Goodfelletal.,2014)。对抗性分类器与主网络共享编码器,并被训练来预测一个实例的受保护属性(A)。对抗模型中的总损失因素,从而在模型能够区分群体时惩罚。形式上,总损失计算为:在这里插入图片描述

其中ˆgi是对抗性分类器对给定输入(x)的检查属性A(A的组(gi),例子是否属于)的预测。

5实验设置

模型 由于我们对长文档进行分类感兴趣(每个文档最多6000个令牌,见附录E.1中的图2),我们使用了类似于Chalkidis等人(2021年)的基于bert的分层模型,以避免只使用文本的前512个令牌。首先,层次模型通过一个预先训练过的基于转换器的模型对文本进行编码,从而使用[CLS]标记独立地表示每个段落。然后,段落表示被输入到一个与第一层表示器完全相同的规格的两层变压器编码器中(例如,隐藏单元,注意头的数量),以便将它们上下文化,即,它使段落表示知道周围的段落。最后,该模型最大限度地汇集了计算文档级表示的上下文感知的段落表示,并将其提供给分类层。

为了这项工作的目的,我们发布了四个特定于领域的BERT模型,并继续对所检查的数据集的语料库进行预训练。9我们训练了具有6个变压器模块、384个隐藏单元和12个注意力头的小型BERT模型。我们启动所有模型从公共MiniLMv2模型检查点(王等,2021)使用蒸馏的版本RoBERTa(刘等,2019)的英语数据集(ECtHRSCOTUS)和一个从XLM-R(网络等,2020)其余(三语FSCS和中国CAIL)。 考虑到这些模型的有限大小,我们可以在ECtHR和SCOTUS中有效使用多达4096个令牌,在FSCS和CAIL中有效使用多达2048个令牌,在24GB GPU卡中每批最多16个样本 。为了完整起见,我们还考虑了线性单词袋(BoW)分类器,使用每个数据集的训练语料库中最频繁的n克(其中n=1,2,3(n=)的TFIDF分数。

数据存储库和代码 我们发布了一个关于拥抱人脸数据集的基准测试的统一版本(Lhoest等人,2021)。11在我们的实验中,我们使用并扩展了WILDs(Koh等人,2021)库。为了实现再现性和进一步探索新的组健壮方法,我们在Github上发布了我们的代码12。11https://huggingface.co/datasets/coastalcph/fairlex 12https://github.com/coastalcph/fairlex

评估详细信息 在整个实验中,我们计算了每组的宏f1得分(mF1i),排除了未识别的实例组,如果有的话。13我们报告了宏观f1,以避免由于类别不平衡和跨列车、开发和测试子集的倾斜标签分布而偏向于大多数类别的情况(Søgaardetal.,2021)。

6 Results

主要结果 在表2中,我们报告了跨所有数据集和属性的组性能(mF1),其中使用ERM算法训练的模型。我们观察到,群体差异的强度在不同的属性之间差异很大,但在许多情况下,群体差异非常明显。

例如,在ECtHR中,我们观察到两个被告州群体之间存在显著的群体差异(21.5%的绝对差异),而在申请人的性别群体中(16.2%的绝对差异)也类似。在FSCS中,我们观察到语言差异,用意大利语书写的案例比用法语和德语书写的案例平均表现低3-5%。在法律领域的表现差异更大,该模型在刑事(刑法)案件中表现最好(83.4%)。降低10-20%)。我们还观察到在法院地区存在巨大的群体差异,例如,瑞士法院裁决的案件(66.8%比联邦法院)和联邦法院(56.4%)。同样的情况也适用于CAIL,例如,在北京法院裁决的案件(66.8%),而四川法院(56.4%)。

表2:三个一般(属性不可知)交叉检验因素(表示不平等、时间概念漂移和最差类别影响)的统计数据,如第6节中介绍。

我们将突出显示每个属性中表现最差和表现最好的一组。在黑体字中,我们强调了不同组中每个因素的最佳(危害较小的)值。为ERM报告的性能(mF1)。

组差异分析 接下来,我们试图基于数据分布来确定可能导致组间性能差异的一般的(属性不可知的)因素。我们确定了三个一般的(属性不可知论性的)因素:

  • 表示不等式:并非所有组在训练集中都有相同的表示。为了研究这方面,我们报告了每组的培训案例的数量。

  • 时间概念漂移:给定组的标签分布随时间变化,即在训练子集和测试子集之间。为了检验这方面,我们报告了每一组,在训练和测试标签分布之间的KL差异。

  • 最差的类别影响:不同标签(类别)之间的性能并不相等,这可能会不成比例地影响不同组间的宏观平均性能。为了检验这方面,我们报告了每组的最差类别影响(WCI)得分,其计算方法如下:

    在这里插入图片描述

在表2中,我们给出了所有属性的结果。我们观察到,在10个案例中,只有4个案例(属性),与其他案例相比,代表性较少的群体是那些表现最差的群体。通常不是高KL散度(漂移)与低性能相关。换句话说,群体差异似乎并不是由时间概念漂移所驱动的。最后,在大多数情况下,最坏类别的影响在组间是相对一致的,但在组在这方面不同的情况下,最坏类别的影响在3个案例中的2个与误差相关。

在ECtHR中,考虑到整个被告州的表现,我们看到所有这三个因素都在内部相关,即表现最差的群体代表较少,有较高的时间漂移,在表现最差的群体中有更多的案例。考虑其他属性的性能不是这样的。但SCOTUS也不是这样的情况。在FSCS中,考虑到语言和区域的属性,表示不平等似乎是导致群体差异的一个重要因素。

这不是法律领域的情况,在法律领域,最具代表性的群体是表现最差的群体。 换句话说,在本案例中,还有其他原因导致表现差异;根据Niklaus等人(2021)的说法,一个潜在的因素是,瑞士刑法的判例更加统一和一致,异常的判断更少见,使任务更容易预测。

交叉属性的影响分析 我们已经评估了那些不一定相互独立的属性之间的公平性。因此,我们评估了不同属性上的性能差异在多大程度上相关性,即属性如何相互作用,以及属性A1的性能差异是否可以潜在地解释另一个属性A2的性能差异。我们研究了群体差异最大的两个属性:ECtHR中的被告状态和FSCS中的法律领域。对于由这两个属性(A1)诱导的箱子,我们计算了在其他属性(A2)之间的mF1分数。

在ECtHR中,约为。83%和81%的男性和女性申请者参与了针对欧洲欧洲国家(表现最佳的群体)的案件。同样,在年龄组中,我们观察到与欧洲国家的病例比例分别为:≤65和≤35的87%和86%,这分别是表现最佳和最差的组。在FSCS中,与刑法相关的案件的比例为:约。29%,41%的人使用法语(表现最好的组)和意大利语(表现最差的组)进行写作。同样地,大约。27%起源于瑞士东部地区(表现最好的组),42%起源于联邦地区(表现最差的组)与公法有关。在这两个属性中,对于表现最差的群体,与公法相关的案件增加了15%。换句话说,一个属性A2(语言、区域)中的群体差异也可以用另一个属性A1(法律区域)的影响来解释。

在表3中,我们报告了上述交叉属性(A1、A2)配对的性能。除了ECtHR中的(年龄,被告状态)交叉盘问外,我们观察到属性A2(表2)中的组差异在可信影响者(即属性A1)的组之间是一致的。因此,交叉属性的影响并不能解释所观察到的群体差异。

我们认为,对结果的深入分析是理解不同因素对结果的影响的基础。如果我们“伪造”了一个理想的场景,即所有的群体和标签都代表相同,那么这种分析是不可能的。虽然一个受控的实验环境经常被用来检查特定的因素,但它可以隐藏或部分缓解这种现象,从而对被检查的模型的公平性产生误导性的结果。

群鲁棒性算法的结果 最后,我们评估了几个组鲁棒算法(第4节)的性能,这些算法可能会减轻组的差异。为了评估他们的表现,我们报告了组间的平均宏观f1(mF1)和组间的组差异(GD),并作为组间的stddev进行测量。:在这里插入图片描述

我们还报告了最差的组的表现(mF1W=min([mF11,mF12,…mF1G))。

在表4中,我们报告了我们在本文中介绍的四个数据集上的所有基线的结果。我们首先观察到,在相同的设置下,与基于转换的模型相比,使用ERM算法训练的线性类字符(每个数据集的第一行)的结果始终更差(更低的平均和最坏情况的性能,更高的组差异)。换句话说,线性分类器的整体性能较低,而在应用的公平定义(即组间表现相同)方面却不太公平。

可以看到,基于变压器的模型训练ERM算法,也就是说,不考虑信息关于组及其分布,执行更好的在同一球场比模型训练方法专门减轻偏见(第四节),平均损失0.17%的mF1和0.78%的mF1W。然而,这些算法提高了文献中最坏情况下的性能,当在一个受控的实验环境中应用时,它们在一个更现实的环境中失败了,即跨属性和标签的两组都不平衡,而组和标签的分布也会随着时间的推移而变化。此外,我们不能确定有一种算法在数据集和其他数据组之间表现得更好,事实上,结果是相当混合的,没有任何可识别的模式。

7限制

Fairlex的当前版本涵盖了非常小的法律应用、辖区和受保护属性。我们的基准是开放式的,不可避免地不能覆盖“整个广泛(法律)世界的一切”(Rajietal.,2021),但尽管如此,我们相信已发表的资源将有助于公平领域的批判性研究。我们的数据集中的一些受保护的属性被自动提取,即ECtHR数据集中的性别和年龄,如果可能的话,通过正则表达式,或由作者手动聚类,如ECtHR数据集中的被告状态和SCOTUS数据集中的被告属性。各种简化,例如性别的二值化,在现实应用中是不合适的。

另一个重要的限制是,在这些数据集中被认为是基本真相的事实(SCOTUS除外),只是相对于法官对一个特定的(EC、美国、瑞士、中国)管辖权和法律框架的解释有关的基本真相。

因此,对于非琐碎的情况,标签有些主观,它的有效性只是相对于一个给定的法律框架。当然,我们并不以任何方式认可所检查的数据集的法律标准或框架。

8 Conclusions

我们引入了FairLex,这是一个多语言基准测试套件,用于开发和测试法律领域内的模型和偏差缓解算法,基于覆盖四个司法管辖区、五种语言和各种敏感属性的四个数据集。此外,我们还提供了有竞争的基线,包括适用于所检查数据集的基于转换器的语言模型,以及四组鲁棒算法(对抗去除、IRM、组DRO和V-REx)的性能检查。虽然,这些算法提高了文献中最坏情况的性能,但当它们在受控实验环境中应用时,它们在更现实的环境中失败,两组跨属性和标签是不平衡的,而组和标签分布也随着时间而变化。此外,我们无法确定一个比其他算法在数据集和组中表现更好的单一算法。

在未来的工作中,我们的目标是进一步扩展基准测试,使用更多可能覆盖更敏感属性的数据集。进一步分析群体差异背后的原因,如表征偏差、系统性偏差,也也至关重要。

伦理声明
* 数据集的社会影响

本工作的范围是提供一个评估框架和广泛的实验,以进一步研究法律领域的公平性。根据Angwin等人(2016)、Dressel和Farid(2018)以及Wang等人(2021b)的工作,我们提供了一个不同的基准,包括多个任务、司法管辖区和受保护(检查)属性。我们基于预先训练的基于转换器的语言模型进行实验,并比较了四种代表性的组鲁棒算法的模型性能,即对抗去除(埃拉扎和戈德堡,2018年)、组DRO(Sagawa等,2020年)、IRM(Arjov斯基等,2020年)和REx(克鲁格等,2020年)。

我们相信,这项工作可以告知并帮助从业人员为法律专业人员建立辅助技术——关于他们所运作的法律框架(司法管辖权)——;这些技术不仅依赖于多数群体的表现,而且还考虑到少数群体和在他们之间开发的模型的健壮性。我们认为,这是一个重要的应用领域,为了改善法律服务和法律民主化,应该进行更多的研究(萨帕萨尼和阿莱特斯,2021年,2021),但更重要的是强调(告知观众)在多方面寻求负责任和道德(公平)的技术部署.

* 信贷归属/许可

我们标准化并汇集了四个数据集:ECtHR(查尔基迪斯等人,2021年)、SCOTUS(Spaeth等人,2020年)、FSCS(尼克劳斯等人,2021年)和CAIL(Xiao等人,2018年;Wang等人,2021b),这些数据已经在CC-BY-(NC-)SA-4.0许可下公开使用。我们在CC-BY-NC-SA-4.0许可下发布了数据集的编译版本,以支持学术研究,并尽我们最好的能力禁止潜在的商业双重用途。15除SCOTUS外,所有的数据集都是公开的,并且以前已经发表过。如果数据集或介绍它们的论文不是由我们自己编写或编写的,我们已经参考了原始的工作,并鼓励FairLex用户也这样做。

事实上,我们认为,在使用多个FairLex数据集进行联合实验并使用FairLex评估框架和基础设施ture,或使用任何新引入的注释(ECtHR, SCOTUS)时,除了引用原始工作外,还应该引用本工作。 否则仅引用原文。

* 个人信息

根据适用的国家法律,这些数据一般是部分匿名的。从隐私的角度来看,这些数据被认为是属于公共领域的。这是一个非常敏感的问题,因为法院试图在透明度(公众的知情权)和隐私(尊重私人和家庭生活)之间保持平衡。ECtHR案件由法院部分匿名化。其数据是根据欧洲数据保护法进行处理和公开的。SCOTUS案件也可能包含个人信息,这些数据由美国最高法院处理和提供,其诉讼程序是公开的。虽然这确保了对美国法律的遵守,但很有可能与ECtHR类似,任何处理都可以通过欧洲法律下的默示同意或合法利益来证明。在FSCS案中,当事人的名字已经由法院根据官方的指导方针进行了修改。根据法院的政策,CAIL案件也被部分匿名。其数据按照中国法律进行处理和公开。

附录 A法律上的歧视和公平性

歧视的法律概念有不同的范围和语义相比公平的概念和偏见的机器学习(杰拉德和Xenedis,2020),目的通常不是实现相同的几率,例如,法院裁定相同的决定基于类似的事实,或有50/50有利的决定对男人和女人,但平等的机会(罗尔斯,1971)。

在法律方面,平等和不歧视的原则在国际、区域和国内层面至关重要。《世界人权宣言》(UDHR)第2条禁止基于种族、肤色、性别、语言、宗教、政治或其他观点、国家或社会出身、财产、出生或其他地位的歧视,后者具有开放式含义。原则也反映在其他几个联合国(联合国)人权文书和区域法律文书,包括第24条美国人权公约(ACHR),第二条和第三条非洲人权和人民权利宪章》(ACHPR)和第十四条和协议n.12的欧洲人权公约(ECHR)。

不歧视原则列入所有国际人权文书,尽管只有少数文书明确规定了不歧视的定义(例如第1条(1)CERD、第1条CEDAW、第2条CRPD、第1条(1)劳工组织)。一般来说,在国际人权法违反非歧视原则发生时:(a)平等情况区别对待,(b)没有合理和客观的理由差异治疗,或©使用的手段不成比例的目标。此外,许多国际文书明确允许采取“积极行动”,而没有在这个意义上要求各国承担义务。“积极行动”一词是指私人机构或政府采取的积极措施,目的是补救过去和现在歧视的影响。在区域和国内一级,许多国家在其立法中直接实施了非歧视法。鉴于算法的广泛应用和适用在欧盟和美国的法律风险的增加,下面的简要分析概述了算法歧视的法律框架。

在欧盟方面,欧盟的非歧视法禁止直接和间接的歧视。17直接歧视发生在一个人治疗“不如另一个有利,已经或将在类似的情况下”的性别,种族或民族出身、残疾、性取向、宗教或信仰和年龄的保护部门(例如工作场所和提供商品和服务)(沃etal.,2021)。禁止直接歧视可以使人们获得平等的机会(即正式上的平等)。然而,这并不够,也不能保证创造机会平等(即实质性平等),而这只能通过考虑受保护的属性、社会和历史现实以及采取积极措施来公平的竞争环境才能实现(Fredman,2016)。间接歧视的概念是基于在实践中实现实质性的平等。指令取消间接歧视的情况显然中立的规定,标准或实践将把人保护特性的劣势与其他人相比,除非“规定,标准或实践是“由一个合法的目标和实现目标的手段是适当的和必要的”。

然而,目前的欧盟非歧视法框架在其个人(即只保护6个特征)和物质范围(即禁止歧视仅限于某些领域)(Gerards和Xenedis,2020年)方面都存在限制。 这些限制带来了与算法歧视有关的问题。例如,算法偏见经常创建看似中性的区别但经常与受保护群体(即代理歧视),有限的列表保护理由使难以解决通过直接歧视的概念的算法偏见的影响(王子和施瓦茨,2019)。间接歧视可以帮助解决这些案件。但它在这种情况下的应用却带来了几个挑战。

2021年4月,欧盟委员会提出了一项提案,要求制定人工智能协调规则(AI法案/AIA)。18该提案旨在避免“对个人的健康和安全或基本权利的重大风险”,一旦通过,将补充目前适用的解决算法歧视的法律框架,从而克服其现有的一些限制。拟议的人工智能法案的设想实施突出了立法者在预防和减轻人工智能系统在多个应用领域的开发和使用所产生的歧视和偏见方面的重要性(Schwemeretal.,2021)。用于司法和民主程序的人工智能系统被认为是高风险的,以“解决潜在的偏见、错误和不透明度的风险”(独奏40AIA)。其结果是,这些系统将受到各种设计和开发要求的制约,例如与培训、验证和测试数据集有关的要求,这些数据集必须根据可能的偏见进行审查(艺术。10(2)点亮。fAIA)或与人类对这类人工智能系统的监督有关,以保持对自动化的偏见的认识(艺术。14个(4)点亮。bAIA)。

在美国,法理学依赖于1964年民权法案第七章中规定的不同待遇和不同影响的原则。19.《宪法》的平等保护条款和民权法中也包括禁止不平等待遇。该禁令是指故意的歧视,即根据种族、肤色、国籍、性别、年龄和宗教等受保护的阶级属性,以不同的方式对待个人。 相反,对差别影响的禁止只在民权法规中有规定,简而言之,它规定,如果某些做法或活动对亲受保护群体有不成比例的不利影响,被告必须证明这种做法有充分的理由。 同样在美国,最近的文献强调了当前法律框架在处理算法歧视时所面临的挑战,特别是就责任和举证责任而言(Kleinbergetal.,2019;向,2021)。

在欧盟和美国法律的边界之外,许多国家明确禁止在其法律中基于国籍、种族、民族和宗教的歧视。其他国家的禁令只涉及种族和宗教。在许多国家,印度对不歧视还没有任何具体或专门的法律,如在中国、印度、印度尼西亚、日本、韩国和沙特阿拉伯。这并不意味着没有潜在的独立立法来强制对某些类别属性的非歧视。

附录B属性的提取和分组

在本节中,我们将提供关于属性提取和分组的更详细的细节。

**ECtHR ** 我们从HUDOC23案例元数据中提取了被告状态,即被告状态(s)。我们主要根据EuroVoc同义词典进行分类。这一分组主要反映了主要是东欧国家、二级中欧国家和其他国家(西欧、北欧、地中海国家)之间的违反行为比例不高。申请人的出生年份可以从案件的事实中提取,例如,“第一个申请人,X先生,出生于1967年。”,使用正则表达式(RegEx)。然后,我们通过从HUDOC案例元数据中提取的判断日期中减去出生年份来计算年龄。年龄分组不遵循任何模式,目的是将申请人聚集在有统计支持的离散组中。最后,如果可能的话,我们从案例事实中提取性别,基于代词(e.g., ‘he’, ‘she’, ‘his’, ‘her’)和其他性别词(e.g., ‘mr’, ‘mrs’, ‘husband’,‘wife’)如The applicant’s husband […]”, or “‘The applicant, Mr A, […]”.我们承认存在非二元性别身份,但非二元性别申请人不能自动识别。

在许多情况下,出生年份或性别都离不开事实。此外,许多案例还涉及多个申请者。在这种情况下,我们将受尊重的属性标记为未知的,并为未知的实例持有不同的组。这些数据点被用于实验,但我们没有报告这些组的结果.

SCOTUS 这两个属性都依赖于最高法院数据库(SCDB)提供的元数据。对于决策的方向,即,该决策是被认为是自由的,还是保守的,我们使用原始变量(决策Direction).26。对于被调查者的类型,我们手动分类(集群)所有可用的,总共311,被调查者变量27分为5个抽象类别(个人、公共实体、组织、设施和其他)。

FSCS 所有的属性都已经可以作为Niklaus等人(2021年)的原始数据集的一部分使用了。组代表个体的值。这些信息是从法院的元数据中提取出来的。

CAIL 所有的属性都已经可以作为Wang等人(2021b)的原始数据集的一部分使用了。组代表个体的值。这些信息是从法院的元数据中提取出来的。

附录C培训和评估细节

我们使用AdamW(Loshchilov和Hutter,2019)优化器对所有预先训练过的基于转换器的语言模型进行了微调,学习速率为3e-5。我们使用16个批大小,并训练模型多达20个时代使用早期停止验证性能。在数据集和属性中,我们用不同的随机种子进行了5次重复,并报告了平均分数。

附录D语言模型的发布

我们发布了四个领域特定的BERT模型(Table 5),并对所检查的数据集的语料库进行了持续的预培训。我们训练了具有6个变压器块、384个隐藏单元和12个注意力头的小型BERT模型。我们启动所有模型从公共MiniLMv2模型检查点(王等,2021)使用蒸馏版本的RoBERTa(刘等,2019)的英语数据集(ECtHRSCOTUS)和一个从XLM-R(网络等,2020)其余(三语FSCS和中国CAIL)。我们使用AdamW(洛什奇洛夫和Hutter,2019)优化器,用128个子词序列预先训练每个FairLex数据集的训练子集中的每个模型,最大学习率为1e-4,预热率为10%。

附录E统计信息

E.1、文件长度的分布情况

在图2中,我们报告了在FairLex数据集(ECtHR,SCOTUS,FSCS)上的序列(文档)长度的分布。我们观察到,跨数据集的文档非常长(3000-6000个+单词)。因此,我们部署了能够对文档的大部分进行编码的分层模型(第5部分)。

E.2按属性划分的组分配

在表6和表7中,我们报告了所考虑的每个被检查属性的组分布。在某些情况下,提取特定的属性,例如,ECtHR中的性别或年龄,是不可能的,即,应用的规则是不够的,可能是因为故意丢失了信息。在训练过程中,包括了未知的样本组,但我们报告的测试分数不包括那些,即,mF1和GD没有考虑到这些组的F1。

附录F标签分布KL差异

在表8、9、10和11中,我们报告了JensenShannon在列车-测试、列车-开发之间的差异在我们的框架中,对每个受保护的属性值和每个数据集分别测试测试标签的分布。

虑的每个被检查属性的组分布。在某些情况下,提取特定的属性,例如,ECtHR中的性别或年龄,是不可能的,即,应用的规则是不够的,可能是因为故意丢失了信息。在训练过程中,包括了未知的样本组,但我们报告的测试分数不包括那些,即,mF1和GD没有考虑到这些组的F1。

附录F标签分布KL差异

在表8、9、10和11中,我们报告了JensenShannon在列车-测试、列车-开发之间的差异在我们的框架中,对每个受保护的属性值和每个数据集分别测试测试标签的分布。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值