文献笔记:2022-EMNLP-MABEL: Attenuating Gender Bias using Textual Entailment Data

目录

1. 摘要

2. 引言

2. 背景

3. 方法

3.1 训练数据

3.2 训练目标

(1)基于蕴含的对比损失

(2)对齐损失

(3)掩码语言建模损失


MABEL:a Method for Attenuating Gender Bias using Entailment Labels


代码地址:GitHub - princeton-nlp/MABEL: EMNLP 2022: "MABEL: Attenuating Gender Bias using Textual Entailment Data" https://arxiv.org/abs/2210.14975


1. 摘要

预训练语言模型编码了不良的社会偏见,这些偏见在下游任务中进一步加剧。为此,本文提出了 MABEL(一种使用蕴涵标签减弱性别偏见的方法),这是一种中间预训练方法,用于减轻上下文表征中的性别偏见。本方法的关键是对自然语言推理(NLI)数据集的反事实增强、性别平衡的蕴涵对使用对比学习目标。此外,还引入了一个对齐正则化器,它可以将相同的蕴涵对沿着相反的性别方向拉得更近。MABEL 在公平性方面优于以前的与任务无关的去偏方法,在对下游任务进行微调后,它还可以保留任务性能。

2. 引言

MABEL 与任务无关,可以构建为具有对比学习框架的中间预训练方法,该方法取决于监督自然语言推理数据集中蕴涵对的使用。通过交换前提和假设句子中的性别词来增强训练数据,并使用对比目标对它们进行建模。此外,还提出了一种对齐正则化器,它可以最小化蕴涵对与其增强对之间的距离。MABEL 可选地合并掩码语言建模目标,以便它可以用于Token级下游任务。

MABEL 是第一个利用监督句子对来学习更公平的上下文表示的工作。已知通过蕴涵对的监督对比学习可以学习更均匀分布的表示空间,其中句子之间的相似性度量更好地对应于它们的语义。同时,本文提出的对齐损失将相同的句子沿着相反的性别方向拉得更近,非常适合学习更公平的语义空间。

最后,本文确定了现有性别偏见缓解文献中的两个主要问题。首先,许多以前的方法仅通过句子编码关联测试(SEAT)来量化偏见,这是一种比较句子表示之间的几何关系的指标。许多去偏方法尽管在 SEAT 上得分很高,但在其他评估设置中并未表现出相同的公平性效益。其次,以前的方法以不一致的方式评估外在基准。为了更公平的比较,本文复制或总结了许多最新方法在主要评估任务上的表现。本文相信,统一评估设置为未来研究中更有意义的方法比较奠定了基础。

2. 背景

表 1 中总结了特定任务和任务无关方法的最新成果,从左到右依次为基于投影的、基于对比目标的、使用性别词种子列表来增强反事实数据的、用于语言模型探测以及微调的去偏方法。

偏见评估至关重要,因为它是检测和缓解偏见的第一步。鉴于偏见以多种方式反映在不同语言中,依赖单一偏见指标是不够的。尽管内在偏见度量指标不透明,但其计算速度快且成本低,这使得它们在当代作品中很受欢迎。相比之下,尽管外在偏见度量指标更容易解释并反映有形的社会危害,但它们通常是时间和计算密集型的,因此往往不太常用。Goldfarb-Tarrant 等人表明,内在指标与外在指标并不可靠地相关,这意味着模型可以在 SEAT 上得分很高,但在下游条件下仍然会形成不公平的判断。

3. 方法

MABEL 通过利用自然语言推理 (NLI) 数据中的蕴涵对来生成通用的去偏表示,从而减轻预训练语言模型中的性别偏见。

3.1 训练数据

由于性别是本文感兴趣的领域,因此本文从 NLI 数据集中提取前提或假设中至少包含一个性别词的所有蕴涵对。在本实验中,探索使用两个著名的 NLI 数据集:(1)斯坦福自然语言推理(SNLI)数据集和多流派自然语言推理(MNLI)数据集。

作为预处理步骤,首先对蕴涵对进行反事实数据增强。对于单词序列中的任何敏感属性词,我们将其沿着相反的偏见方向(即,girl to boy)交换为单词,并保持非属性词不变。这种变化系统地应用于每个蕴涵对中的每个句子。图 1 显示了这种增强的示例,其中性别偏见作为敏感属性。

3.2 训练目标

本方法的训练目标由三个部分组成:基于蕴涵对及其增强的对比损失、及其对齐损失和可选的掩码语言建模损失。

(1)基于蕴含的对比损失

假设这种对比损失将有助于减轻偏见,因为具有相似含义但性别方向相反的概念在这种相似性度量下会更加接近。

p为前提表征,h为假设表征,令{(p_{i},h_{i})}_{i=1}^{n}n个原始蕴含对的表征序列,且{(\hat{p}_{i},\hat{h}_{i})}_{i=1}^{n}n个反事实增强蕴含对。每个蕴涵对(及其对应的增强对)形成一个正样本对,其他batch内句子构成负样本。在一个训练batch中使用m对蕴含对及其增强对,蕴涵对i的对比目标定义为:

其中sim(\cdot ,\cdot )表示余弦相似函数,\tau是温度。L_{CL}是训练batch中所有损失的平均值。h_{i}=\hat{h}_{i}(即当h_{i}不包含任何性别词且增强不变时),将\hat{h}_{i}从分母中排除,以避免h_{i}\hat{h}_{i} )作为p_{i}的正样本(负样本)而作为负样本,反之亦然。

(2)对齐损失

本文希望损失能够促进原始蕴涵对与其增强对应对之间的内部关联。直观上,蕴涵对及其性别平衡相反的特征应该被视为正样本并且在空间上接近。对齐损失最小化了原始句子对(p_{i},h_{i})和性别相反句子对(\hat{p}_{i},\hat{h}_{i})的余弦相似度之间的距离:

本文假设,如果模型将相似的度量值分配给两个性别相反的对,则该模型的偏见较小,这意味着它将沿不同性别方向的相同概念映射到相同的上下文。

(3)掩码语言建模损失

可以附加辅助掩码语言建模(MLM)损失以保留模型的语言建模能力,随机掩码所有句子中p=15%的tokens。通过利用周围的上下文来预测原始词,编码器会被激励保留token级别的知识。

综上所述,本文所提方法的训练目标是:

其中两个对比损失通过可调系数\alpha进行线性插值,MLM 损失通过超参数\lambda进行调节。

  • 12
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值