文献笔记:2023-EACL-Comparing Intrinsic Gender Bias Evaluation Measures without using Human Annotated ...

目录

1. 摘要

2. 引言

3. 偏见控制微调

4. 实验

4.1 设置

4.2 内在偏见评估度量

4.3 比较内在性别偏见评估度量

4.4 偏见控制的 PLM

5. 局限性

【参考文献】


1. 摘要

在预训练语言模型(PLM)中已经识别出多种类型的社会偏见,并且已经提出了各种内在偏见评估度量来量化这些社会偏见。先前的工作依赖于人类注释的示例来比较现有的内在偏见评估度量。然而,由于招募人类注释者的成本和困难,这种方法不易于适应不同的语言,也不适合大规模评估。为了克服这一限制,本文提出了一种方法来比较内在性别偏见评估度量,而不依赖于人类注释的示例。具体来说,本文使用不同数量的男性与女性性别句子创建多个偏见控制版本的 PLM,这些句子是使用性别相关单词列表从未注释的语料库中自动挖掘的。接下来,使用内在偏见评估度量来评估每个偏见控制的PLM,并且计算所计算的偏见分数与用于微调PLM的性别比例之间的排名相关性。对多个语料库和 PLM 的实验反复表明,本文提出的不需要人工注释示例的方法报告的相关性与之前工作中使用人工注释示例计算的相关性相当。

2. 引言

本文提出了一种在不使用人工注释示例的情况下比较内在偏见评估度量的方法。图 1 概述了该方法背后的直觉。

首先,训练通过对男性和女性性别句子的 PLM 进行微调获得的 PLM 的偏见控制版本,这些句子使用性别相关单词列表从未注释的语料库中自动挖掘。将偏见率(r)定义为用于微调 PLM 的训练样本中男性和女性性别句子之间的比率。主要针对男性句子进行微调的 PLM 可能会生成主要包含男性单词的句子,而针对女性句子进行微调的 PLM 可能会生成主要包含女性单词的句子。因此,对于男性偏见控制的PLM,期望准确的内在偏见评估度量返回指示对男性性别的偏见的得分,而对于女性偏见控制的PLM,期望返回指示对女性性别的偏差的得分。然后,计算(1)偏见控制的 PLM 中的偏见率和(2)相应 PLM 的内在评估度量返回的偏见分数之间的排名相关性,作为偏见评估度量准确性的衡量标准。

本文对多个语料库和 PLM 的实验表明,提出的方法报告的相关性(不需要人工注释的示例)与之前研究中使用人工注释的示例计算的相关性相当。此外,通过检查 PLM 的输出概率,本文验证了所提出的方法(使用不同数量的男性与女性句子对偏见控制的 PLM 进行微调)确实能够控制与男性和女性性别方向相关的偏差。

3. 偏见控制微调

训练数据中性别词的不平衡会影响使用该数据微调的 PLM 的性别偏见。利用这一事实,我们提出了一种方法来学习 PLM 的偏见控制版本,该版本表达不同程度的已知性别偏见。首先假设得到一个女性性别相关单词V_{f}的列表(例如 she、woman、female),以及一个单独的男性性别相关单词V_{m}列表(例如 he、man、male)。接下来,从一组未注释的句子集D中选择至少包含一个女性或男性单词的句子。此处排除同时包含男性和女性单词的句子。用\Phi (w)表示为女性或男性单词w提取的句子集合。此外,设D_{f}=\bigcup _{w\in V_{f}}\Phi (w)D_{f}=\bigcup _{w\in V_{m}}\Phi (w)分别为包含女性和男性单词的句子集合。适当地对D_{f}D_{m}进行下采样,以获得相等数量的句子N(即\left | D_{f} \right |=\left | D_{m} \right |=N)。

接下来,通过改变偏见率r(\in [0,1])来创建训练数据集D_{r},方法是从D_{f}中随机采样N_{r}个句子的子集S_{r}(D_{m})N_{1-r}个来自D_{m}的句子,使得D_{r}=S_{r}(D_{m})\cup S_{1-r}(D_{f})。当r=0时,D_{r}仅包含女性句子(即D_{r}\subseteq D_{f}),当 r = 1 时,它仅由男性句子组成(即D_{r}\subseteq D_{m})。为了获得不同性别偏见水平下的多个偏见控制的 PLM,我们在不同的数据集D_{r}上微调给定的 PLM,并使用不同的r值进行采样。本文使用给定的内在偏见评估度量来单独评估每个偏见控制的 PLM。最后,使用 Pearson 等级相关系数来衡量所考虑的内在偏见评估度量所报告的偏见分数与这些 PLM 的相应偏见率之间的一致性。

4. 实验

4.1 设置

在本文实验中,使用女性词 she、woman、female、her、wife、mother、girl、sister、daughter、girlfriend 作为V_{f},而男性词 he、man、male、his、his、fistury、father、boy、brother、son、boyfriend作为V_{m}。从 Newscrawl 2021 语料库(news)和 BookCorpus(books)中抽取了 2M个分别代表男性和女性性别的句子,用于训练偏见控制的 PLM,并抽取了100K个单独的句子作为开发数据。

PLM:BERT、ALBERT

通过掩码语言模型学习来微调 PLM。本文使用公开可用的 Transformer 库来微调 PLM,并且所有超参数都设置为其默认值。在四个 Tesla V100 GPU 上针对 {0.0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0} 中的 r 训练了 11 个偏见控制的 PLM。

4.2 内在偏见评估度量

本文比较了之前提出的五种内在性别偏见评估度量:基于模板的分数(Template-Based Score,TBS)、StereoSet分数(StereoSet Score,SSS)、CrowS-Pairs分数(CrowS-Pairs Score,CPS)、AUL分数(All Unmasked Likelihood,AUL)以及带有注意力权重的 AUL(AUL with Attention weights,AULA)。

请注意,TBS 使用模板进行评估,不能与人工注释的刻板/反刻板句子一起使用。另一方面,SSS、CPS、AUL 和 AULA 都需要人工注释的句子来表达社会偏见。

4.3 比较内在性别偏见评估度量

本文使用具有人工注释的 CP 数据集将所提出的方法与 Kaneko 和 Bollegala[1]的方法进行了比较,并展示了所提出方法的有效性。此外,本文将使用多个 PLM 和语料库来分析所提出方法的趋势。表 1 显示了分别在newa或books语料库上微调 BERT 和 ALBERT 时,所提出的方法对 TBS、SSS、CPS、AUL 和 AULA 的相关结果。HA 是 Kaneko 和 Bollegala[1]使用人工注释的方法的 AUC 值。由于TBS使用模板,因此无法使用HA对其进行评估。

对于 BERT,所提出的方法在度量之间产生相同的顺序(即 AULA > AUL > CPS > SSS),与 HA 在news和books中所表现的相同。对于 ALBERT,所提出的方法和 HA 之间只有 SSS 和 CPS 的排名不同。这些结果表明,所提出的方法和使用人工注释的现有方法以几乎相同的顺序对内在性别偏见评估度量进行排序。可以看出,相关系数的值根据PLM和语料库的不同而变化。例如,ALBERT 的最大相关性为 0.60,而 BERT 的最大相关性仅为 0.42。

基于人工注释的评估的一个主要限制是它不能用于将没有人工注释的示例的 TBS 与其他内在偏见评估度量进行比较。然而,本文提出的方法没有这个限制,可以用来将 TBS 与其他偏见评估度量进行比较。从表1可以看出,TBS始终报告相关性最低,表明它不是一个准确的内在性别偏见评估度量。这一发现与 Kaneko 等人[2]的观点一致,他们强调了模板作为评估社会偏见的方法的不足。

4.4 偏见控制的 PLM

为了验证所提出的方法确实可以控制 PLM 的偏见,本文研究了使用不同r进行微调的 PLM 的输出概率的变化。具体来说,对于偏见控制的 PLM,本文研究了输入文本“[MASK] is a/an [Occupation]”中掩码he 和 she 的输出概率。对于[Occupation],使用 Bolukbasi 等人[3]创建的单词列表中的性别和刻板印象中性职业单词(例如writer、musician)。当r增加时,PLM 将随着男性句子数量的增加进行微调。因此,如果 he 的平均概率随着r的增加而增加,则意味着所提出的方法正确地控制了 PLM 的偏见。

图 2 显示了当r以 0.1 的步长递增时 he 和 she 的平均输出概率。当r=1时,PLM 以相当高的概率预测 he,当r=0时,PLM 以相当高的概率预测 she。而且,当r=0.5时,he和she的输出概率几乎是0.5。原始 BERT(未经微调)he 和 she 返回的概率分别为 0.48 和 0.28,而 ALBERT 返回的相应概率分别为 0.64 和 0.22。在没有进行任何偏见控制时,原始的 BERT 和 ALBERT 都预测了 he 相对较大的输出概率,表明它们是偏向男性的。从这些结果可以看出,he和she的输出概率根据r波动,并且所提出的方法可以控制PLM的偏见。另一方面,当r小于0.2或大于0.8时,she和he的输出概率分别大于数据集中的比例。因此,当r较小或较大时,r的精细增量可能会使更精细地控制偏见变得困难。

为了说明所提出的方法针对不同的偏见率(r)产生的偏见控制的PLM是如何预测性别代词的概率的,本文考虑从CP数据集中选择掩码的句子“[MASK] doesn’t have time for the family due to work obligations.”。He和She是未经修改的Token。图 3 显示了不同偏见控制的 PLM 为 [MASK] 预测的Token的概率。可以看到原始的 BERT 模型以大致相等的概率预测He和She。然而,当r从 0 逐渐增加到 1 时,我们看到 He 的概率增加,而 She 的概率减少,这表明所提出的方法正确地学习了偏见控制的 PLM。

5. 局限性

本文将研究范围限制在英语 PLM 上。然而,正如之前的许多工作所报道的那样,社会偏见与语言无关,并且在针对多种语言训练的 PLM 中无处不在。本文计划将来将这项研究扩展到非英语PLM。

根据现有研究,PLM 还编码许多不同类型的社会偏见,例如除了性别相关偏见之外的种族和宗教偏见。另一方面,本文只关注性别偏见。将所提出的方法扩展到处理性别偏见之外的其他类型的社会偏见超出了当前短论文的范围,并推迟到未来的工作。


【参考文献】

[1] Masahiro Kaneko and Danushka Bollegala. 2022. Unmasking the mask–evaluating social biases in masked language models. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 36, pages 11954–11962.

[2] Masahiro Kaneko, Danushka Bollegala, and Naoaki Okazaki. 2022a. Debiasing isn’t enough! – on the effectiveness of debiasing MLMs and their social biases in downstream tasks. In Proceedings of the 29th International Conference on Computational Linguistics, pages 1299–1310, Gyeongju, Republic of Korea. International Committee on Computational Linguistics.

[3] Tolga Bolukbasi, Kai-Wei Chang, James Y Zou, Venkatesh Saligrama, and Adam T Kalai. 2016. Man is to computer programmer as woman is to homemaker? debiasing word embeddings. In Advances in Neural Information Processing Systems, volume 29. Curran Associates, Inc.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值