ACL 2020 | 消除文本分类问题中歧视现象的研究

该研究揭示了文本分类数据集中的歧视问题,指出模型可能学习到歧视模式,导致对某些群体的不公平预测。提出了一种基于实例加权的无歧视学习方法,有效减轻模型的歧视性预测,已在ACL 2020会议上发表。
摘要由CSDN通过智能技术生成

©PaperWeekly 原创 · 作者|张冠华、白冰

研究机构|哈工大/腾讯

研究方向|自然语言处理

导语

文本分类问题是自然语言处理中的一个基础问题,旨在根据语义预测一句话的标签。常见的文本分类任务包括情感检测、意图分析等。最近,学术界发现文本分类数据集常常包含对某些群体的歧视,这是因为这些数据集反映了人类社会中普遍存在的偏见。

机器学习在这些有歧视的数据集中训练时,也会学习到这些歧视的模式,从而产生歧视性的预测结果。比如,模型可能会仅仅因为句子中的“女人”一词就把“我是一个女人”判断为侮辱性语句。

本文探究了文本分类中歧视问题的形式化定义,并提出了一种基于样本加权的无需额外数据的模型去歧视方法。实验结果表明我们的方法可以有效缓解模型预测过程中对弱势群体的歧视问题。本文章已经被 ACL 2020 录取。

论文标题:Demographics Should Not Be the Reason of Toxicity: Mitigating Discrimination in Text Classifications with Instance Weighting

论文链接:https://arxiv.org/abs/2004.14088

代码链接:https://github.com/ghzhang233/Non-Discrimination-Learning-for-Text-Classification

问题背景

文本分类问题是自然语言处理中的一个基础问题,旨在根据语义预测一句话的标签。常见的文本分类任务包括情感检测、意图分析等。

最近,学术界发现文本分类数据集常常包含对某些群体的歧视, 这是因为这些数据集反映了人类社会中普遍存在的偏见。具体地,这种歧视表现为在数据集中某些群体对特定标签有明显的倾向性。比如在 Toxicity Comments 数据集中,如下表所示,我们可以看出一些群体词如 “gay” 与标签 “Abusive” 有着很强的关联。

机器学习在这些有歧视的数据集中训练时,也会学习到这些歧视的模式,从而产生歧视性的预测结果。比如,模型可能会仅仅因为句子中的“女人”一词就把“我是一个女人”判断为侮辱性语句。如果这样有歧视的模型被应用在实际生活场景中,不难想象其会对一些弱势群体造成伤害。

问题定义

我们首先给出无歧视分布和无歧视模型的定义。在本文中,我们使用 来表示句子, 来表示标签, 来表示句子中的包含的群体信息, 来表示模型的预测。

2.1 无歧视分布

如前面所说的,数据集中的歧视现象是人类社会中的偏见的映射,我们称有偏数据集中的分布为有歧视分布

现实世界是有歧视的,对应地,我们可以假设存在一个无歧视的理想世界,而现实世界则是理想世界的一个歧视性的映射。进一步地,我们可以假设存在一个无歧视分布反映了理想世界,而有歧视分布是从无歧视分布中遵循着歧视性的规则抽样得到的。

我们用 表示无歧视分布中的概率, 表示有歧视分布中的概率,则无歧视分布显然应该满足群体信息与标签无关,即:

2.2 无歧视模型

对于文本分类模型,我们使用 Equalized Odds 来定义模型的歧视行为。具体地,无歧视模型应该满足在给定标签 的情况下,模型的预测

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值