ACL 2022 | 基于Prompt的自动去偏：有效减轻预训练语言模型中的偏见-CSDN博客

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/125796039

ACL 2022的一项研究提出了Auto-Debias方法，通过自动寻找有偏的prompt来减轻预训练语言模型中的偏见，如BERT、RoBERTa和ALBERT中的性别和种族偏见。该方法无需额外语料库，通过分布对齐损失来消除模型偏差，实验表明这种方法在保持模型理解能力的同时显著减少了偏见。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Background

去除偏见问题一直在真实对话系统中一直收到广泛的关注，在大型人类产生的语料库上训练的预训练语言模型，很多模型继承了类似人类的偏见和不想要的社会定型，例如，在 mask filling 任务中，BERT 将句子“The man/woman had a job as [MASK]”中的 [MASK] 分别替换为“经理/接待员”，反映了职业的性别偏见。

我们认为这种 PLM 中编码的刻板印象就是 bias，这样的 bias 很难在常规的评价指标（F1，ACC，GLUE 等）中体现，职业性别偏见只是其中之一，还有许许多多的其他偏见（种族偏见，国家偏见等），它们会在下游 NLP 任务中传播甚至放大，例如情绪分类，文本分类任务，心理测量分析等。

尽管消除偏见迫在眉睫，但这对于掩码模型仍十分挑战，因为被编码的偏见信息很难被识别。为应对这一挑战，以前的工作试图使用额外的语料库来检索语境化 embedding 或定位偏见，进行相应的去偏。例如使用外部语料库来定位包含人口学特定词（如男人和女人）或刻板印象词（如经理和接待员）的句子，然后使用不同的去偏损失来减轻偏见。

然而使用外部语料来消除 PLM 的偏见，在很大程度上依赖于语料的质量。结果表明，不同的语料对去偏的结果有不同的影响：有些外部语料确实减轻了偏见，而有些则为 PLMs 引入了新的偏见。这是因为用于去偏的语料库可能对 PLMs 中编码的偏见没有足够的覆盖。此外，我们对如何定量评估语料库中的偏见水平的理解仍然有限。然而，在没有外部语料库的 PLMs 中减轻偏差是一个研究空白。

为了填补这个空白，ACL 2022 的一篇文章中提出了一种 Auto-Debias 的方法来减轻预训练语言模型中的偏见。与以往使用外部语料对预训练模型进行微调的去偏工作不同，作者通过 prompt 直接探测预训练模型中编码的偏差。具体来说，作者提出了一个变种的束搜索方法，以自动搜索有偏见的提示语使模型填空的结果在不同的人口群体中差异最大，除此以外，本文还通过一个分布排列损失来减轻偏见。

实验结果表明，Auto-Debias 的方法可以大大减少偏见，包括性别和种族偏见，在预训练的语言模型如 BERT、RoBERTa 和 ALBERT 中。此外，在 GLUE 基准的实验证明，公平性的改善并没有降低语言模型的理解能力。