©PaperWeekly 原创 · 作者|张冠华、白冰
研究机构|哈工大/腾讯
研究方向|自然语言处理
导语
文本分类问题是自然语言处理中的一个基础问题,旨在根据语义预测一句话的标签。常见的文本分类任务包括情感检测、意图分析等。最近,学术界发现文本分类数据集常常包含对某些群体的歧视,这是因为这些数据集反映了人类社会中普遍存在的偏见。
机器学习在这些有歧视的数据集中训练时,也会学习到这些歧视的模式,从而产生歧视性的预测结果。比如,模型可能会仅仅因为句子中的“女人”一词就把“我是一个女人”判断为侮辱性语句。
本文探究了文本分类中歧视问题的形式化定义,并提出了一种基于样本加权的无需额外数据的模型去歧视方法。实验结果表明我们的方法可以有效缓解模型预测过程中对弱势群体的歧视问题。本文章已经被 ACL 2020 录取。
论文标题:Demographics Should Not Be the Reason of Toxicity: Mitigating Discrimination in Text Classifications with Instance Weighting
论文链接:https://arxiv.org/abs/2004.14088
代码链接:https://github.com/ghzhang233/Non-Discrimination-Learning-for-Text-Classification
问题背景
文本分类问题是自然语言处理中的一个基础问题,旨在根据语义预测一句话的标签。常见的文本分类任务包括情感检测、意图分析等。
最近,学术界发现文本分类数据集常常包含对某些群体的歧视, 这是因为这些数据集反映了人类社会中普遍存在的偏见。具体地,这种歧视表现为在数据集中某些群体对特定标签有明显的倾向性。比如在 Toxicity Comments 数据集中,如下表所示,我们可以看出一些群体词如 “gay” 与标签 “Abusive” 有着很强的关联。
机器学习在这些有歧视的数据集中训练时,也会学习到这些歧视的模式,从而产生歧视性的预测结果。比如,模型可能会仅仅因为句子中的“女人”一词就把“我是一个女人”判断为侮辱性语句。如果这样有歧视的模型被应用在实际生活场景中,不难想象其会对一些弱势群体造成伤害。
问题定义
我们首先给出无歧视分布和无歧视模型的定义。在本文中,我们使用 来表示句子, 来表示标签, 来表示句子中的包含的群体信息, 来表示模型的预测。
2.1 无歧视分布
如前面所说的,数据集中的歧视现象是人类社会中的偏见的映射,我们称有偏数据集中的分布为有歧视分布。
现实世界是有歧视的,对应地,我们可以假设存在一个无歧视的理想世界,而现实世界则是理想世界的一个歧视性的映射。进一步地,我们可以假设存在一个无歧视分布反映了理想世界,而有歧视分布是从无歧视分布中遵循着歧视性的规则抽样得到的。
我们用 表示无歧视分布中的概率, 表示有歧视分布中的概率,则无歧视分布显然应该满足群体信息与标签无关,即:
2.2 无歧视模型
对于文本分类模型,我们使用 Equalized Odds 来定义模型的歧视行为。具体地,无歧视模型应该满足在给定标签 的情况下,模型的预测