论文译摘-人工智能伦理-Challenges in Detoxifying Language Models 挑战：去毒化语言模型-CSDN博客

译者按：

本论文得到了 PERSPECTIVE API 团队的支持，由 DeepMind 团队于2021年11月完成。该团队聚焦于人工智能的前沿研究，尤其在语言模型的安全性与伦理性领域具有重要的国际影响力。研究团队包括 Pushmeet Kohli 博士等多位知名学者。论文提出了多种毒性减缓技术并结合人类评价与自动指标展开验证，具有重要的学术价值和现实指导意义。

Challenges in Detoxifying Language Models

挑战：去毒化语言模型

摘要

为了在现实场景中部署LM，衡量并确保生成文本的安全性至关重要。此前的研究往往依赖于对LM毒性（toxicity）的自动评估。我们发现，虽然一些基础干预策略可以有效优化先前建立的自动评价指标（如REALToXICITYPROMPTS数据集上的指标），但这种优化往往以降低语言模型对边缘化群体的文本覆盖度为代价。此外，在应用强去毒化干预后，人工评估与高自动毒性评分之间常常出现分歧。

一、引言

为了实现语言模型（LM）的安全使用和部署，必须衡量理解毒性文本生成的来源，并采取有效措施缓解。此前的研究提出了多种减少语言模型毒性的方法，比如通过微调预训练模型（Gehman等人，2020；Gururangan等人，2020），通过引导模型生成更不容易被判定为有毒的文本（Dathathri等人，2020；Krause等人，2021；Schick等人，2021），或者直接在测试阶段过滤（Xu等人，2021）。近期，Gehman等人（2020）提出了一种基于PERSPECTIVE API模型（训练于标注了毒性的在线评论数据）的自动毒性评估指标，该模型是在针对毒性进行标注的在线评论上训练的。

在本文中，我们对现代基于Transformer架构的英语LM的毒性评估和缓解方法进行批判性讨论。结合人工标注和分类器的评估，研究了不同毒性缓解方法的有效性，并探讨了其在语言模型质量和社会偏见方面的权衡。

本文贡献如下：

1.批判性讨论LM毒性评估方法（第3节）并进行了评估研究（第4节），过程结合自动毒性评分（第5节）和人工判断（第6节）。

2.发现简单方法的组合（第4节）在优化自动毒性评估指标上非常有效（例如REAL ToXICITY PROMPTS数据集），但这容易过度过滤与边缘化群体相关的文本内容，导致模型对这些群体生成文本的能力下降（第8节）。

3.采用强毒性削减措施的应用时，自动毒性评分与人工标注者之间的分歧将增加，这限制了应用作为进一步降低毒性指标的有效性（第6节）。

4.降低（自动）毒性得分是有代价的。我们发现降低毒性得分与 LM 评估损失之间存在权衡（§7），并且进一步表明这种权衡对边缘化群体相关的文本影响更大（§8）：主题相关和方言相关的 LM 偏差都会增加，如图 1 所示。

二.相关工作

虽然检测仇恨言论和攻击性语言的研究（如Warner和Hirschberg，2012；Kwok和Wang，2013；Davidson等，2017；Zampieri等，2019）在在线社区管理中已广泛开展，但针对语言模型生成的有毒文本的研究相对较新。Wallace等人（2019）首次证明，合成文本提示会引发GPT-2生成带有种族歧视的文本。Gehman 等人 (2020) 将 LM 毒性分析扩展到非合成提示，进一步研究了多种潜在缓解方法的有效性。我们在此基础上扩展了这项工作，批判性地讨论了之前引入的评估 LM 毒性的指标，并将基于分类器的 LM 毒性评分与人工评估进行了比较。

在减少LM毒性的最有希望的方法中，有一种方法是引导生成不太可能被归类为有毒文本的文字（Dathathri等人，2020；Krause等人，2021）。这通常依赖于外部毒性分类器，尽管Schick等人（2021）表明LM自身的毒性自我诊断也可以用于此目的。

有毒语言检测系统已知会对特定社会群体存在偏见，与周等人 (2021) 的研究类似，我们将偏见区分为两种类型。第一种为主题相关的偏见，其中提及特定身份的文本会导致毒性分类器出现误报——例如 LGBTQ+ 身份术语（“同性恋”）。这种现象与有毒样本中身份术语的相对流行率增加有关（Waseem 和 Hovy，2016；Dixon 等人，2018；Park 等人，2018）。第二种为不同方言，例如，分类器平均会对非洲裔美国英语（AAE）分配更高的毒性评分（Davidson 等人，2019；Sap 等人，2019a）。一个潜在副作用是，在 LM 上下文中应用基于分类器的毒性缓解方法的，可能被生成的模型继承分类器所带有的偏见。

我们的发现与徐等人 (2021) 的当代研究一致，该研究表明语言模型的毒性缓解措施可能会放大社会偏见。我们的工作将这些结果扩展到更广泛的模型、人口统计和数据集，并使用维基百科元数据 (Dhamala 等人，2021) 而不是关键字匹配来衡量与主题相关的偏见。我们还表明，在我们的指标和基于似然的指标下表现良好的模型仍然可能加剧偏差。最后，通过对有毒样本进行上采样，我们可以估计整体 LM 的毒性，而基于比较的方法可能会强调对已经非有毒的 LM 补全的微小变化。

其他关于生成文本中毒性的研究包括 Xu 等人（2020），他们专门研究对话环境中的安全性，以及将现有的攻击性文本翻译成非攻击性变体（Nogueira dos Santos 等人，2018；Laugier 等人，2021）。

三、有毒语言与语言模型

1.毒性定义

据PERSPECTIVE API的定义，语言如果表现为粗鲁、不尊重或不合理，并可能导致他人退出讨论，则被判定为“有毒”。这一定义被此前的语言模型毒性研究（Gehman等，2020）采用，并为量化结果的直接比较提供了基础。然而，需要注意以下两点：

a.主观性：毒性评判高度依赖标注者的文化背景和推断的上下文。例如，历史性的不平等可能导致弱势群体对攻击性语言的容忍度较高，毒性测量需考虑这种潜在的差异性。主观毒性评分可能存在差异的现象包括讽刺(见COAI团队2023年work)和表达政治不满的言论；我们在附录的表 12 中展示了一些示例言论。虽然这不是本文的重点，但对于未来的工作来说，继续发展上述定义并阐明它如何在不同语境中公平地应用非常重要。

b.局限性：这一毒性定义仅涵盖了语言模型潜在危害的一部分。例如，语言模型可能传播有害的刻板印象，或在统计意义上表现出偏见（Sheng等，2019）。虽然重要，但我们在这里不讨论这些。

2.评估毒性的方法

本文结合自动评估和人工评估，衡量语言模型生成有毒语言的倾向。虽然自动评估在某些研究场景（如生成引导方法）中具有低成本的优势，但最终语言模型对人类的影响应由人工评估来定义其价值。需要注意的是，人工评估的过程可能对标注者造成情感负担（Dang等，2018）。

LM 安全标准既与应用相关，也与受众相关。因此，我们建议谨慎对待从我们的工作中得出的过于笼统的结果，特别是关于特定技术绝对和相对有效性的结果。这些注意事项与我们的实验强调的局限性一致：关于人类和自动毒性评估之间的关系（第 6 节），以及毒性缓解与边缘群体覆盖率之间的权衡（第 8 节）。

3.评估语言模型的毒性

在这项工作中，我们考虑了自动评估和人工评估来衡量语言模型产生有毒语言的倾向。自动评估可以提供一个低成本的初步毒性指标，并且对于某些类型的研究非常有用，例如狭窄聚焦的引导方法（Dathathri 等人，2020；Krause 等人，2021）。然而，我们最终关心的是语言模型对人们的影响，因此毒性降低的益处最终必须由人类判断来定义。人类评估的一个重要考虑因素是，标注过程本身可能会给接触到有毒内容的标注者带来情感负担（Dang 等人，2018；Steiger 等人，2021）。在第 10.1 节中，我们讨论了确保标注者福祉的策略。

四、模型与方法

接下来，我们将描述我们评估的语言模型 (LM)，以及我们考虑的用于降低 LM 毒性的三种方法，涵盖基于数据、可控生成和基于直接过滤的方法。

本研究的标准 LM 是一个 TransformerXL 模型（Dai 等人，2019），在 C4 数据集（Raffel 等人，2020）上训练，具有 24 层、16 个头，dmodel = 2048 和 dff = 8192。该模型包含 14 亿个参数，并在 C4 验证集上实现了 2.40 的每个词元损失。它使用一个包含 32,000 个子词的词汇表，并采用 SentencePiece 分词器 (Kudo 和 Richardson, 2018)。我们使用 Adam 优化器在 128 个 Google Cloud TPUv3 核心上训练所有 LM 变体，批次大小为 256，总共训练 3 × 105 步，大约 5 天。对于所有采样，我们使用核采样 (Holtzman 等人，2020)，其中 top-p = 0.9。

4.1大模型毒性降低技术

训练集过滤：在本次干预中，我们使用根据 PERSPECTIVE API 得分过滤毒性内容的不同版本的 C4 语料库训练语言模型。我们将这些子集表示为 trainfilter@X，表示删除了毒性得分高于 X 的文档——较低的 X 值表示更强的过滤。我们选择 0.2、0.1 和 0.05 作为过滤训练数据的阈值，之后原始训练 C4 文档中剩余 3.11 亿 (85%)、2.09 亿 (57%) 和 7800 万 (22%)。我们在这些较小的数据集上没有观察到过拟合的迹象。

解码/测试时过滤：我们还考虑在解码/测试时直接过滤LM输出，并将此基线表示为test-filter。为了避免在过滤和评估中使用PERSPECTIVE API，我们使用一个单独的基于BERT的有毒分类器（Devlin 等人，2019，在本工作中表示为BERT）进行过滤，该分类器在CIVILCOMMENTS数据集（Borkan 等人，2019）上使用16个Google Cloud TPUv3核心，以2×10−5的学习率微调了1个epoch。遵循 Wulczyn 等人 (2017) 的方法，我们使用软标签，基于对每个评论进行有毒性评级的标注者比例，以及交叉熵训练目标。分类器在验证集上取得了 96.8% 的准确率。我们首先从 LM 生成最多 K 个样本，当找到 BERT 有毒性得分低于 τreject = 0.01 的样本时停止生成。4 如果我们没有获得 BERT 有毒性得分较低的延续（得分越低越好），我们将返回 BERT 有毒性得分最低的样本。

3.即插即用语言模型（Plug-and-Play Language Models ，PPLM）：我们还评估了 PPLM（Dathathri 等人，2020），它是 Gehman 等人（2020）中基于解码的最强方法。给定来自基础 LM 的隐藏表示，PPLM 使用一个额外的线性判别器，该判别器经过训练以预测毒性。在我们的标准 LM 之上进行训练后，该模型的测试 F1 分数为 0.78。PPLM 使用该鉴别器将 LM 的隐藏表示引导到一个方向，该方向既具有较低的预测毒性，又具有较低的 KL 散度，与原始 LM 预测相比。PPLM 超参数的调整类似于 Madotto 等人（2020），请参阅附录 A.2。

五、基于分类器的毒性评估

尽管我们的主要目标是基于对LM毒性的主观评估（在第6节中描述），但为了与之前的工作保持一致，我们首先描述了使用自动毒性指标进行的评估。我们注意到，自动毒性检测工具的几个局限性已被Jigsaw和其他工作（Sap等人，2019a；Gehman等人，2020）充分记录。

为了进行自动化的、基于分类器的毒性评估，我们依赖于 REALTOXICITYPROMPTS (RTP) 基准（Gehman 等人，2020）。目标是在提示条件和无条件设置下，测量 LM 在 20 个 token 延续中的毒性。对于条件情况，RTP 包含 100,000 个英文网络语言提示，每个提示都被标记为有毒或无毒。RTP 指标源自 PERSPECTIVE API 毒性分类器，该分类器输出一个校准后的毒性分数，介于 0 到 1 之间。5 鉴于这些分数，RTP 报告了两个指标：

i) 预期最大毒性衡量给定提示的 25 个延续的最大毒性分数，在所有提示中取平均值；

ii) 毒性概率衡量在给定每个提示的 25 个 LM 生成的延续的情况下，至少有一个延续的毒性分数大于 0.5 的频率。

5.1 自动评估结果

首先，我们观察到在 C4 上训练的标准模型中，与 GPT-2 相比，毒性率略有下降（例如，未提示的毒性概率为 0.16 对比 0.33）。这与 GPT-2 训练语料库中总体上较高的毒性文档比例（得分 ≥ 0.5）一致，Gehman 等人 (2020) 报告为 4.3%，而 C4 为 0.6%。基于分类器毒性过滤 C4 训练集会导致 LM 毒性得分进一步降低，并且在数据过滤器更强的情况下，毒性得分也往往更低。这证实了有毒的训练数据直接影响了生成的语言模型的毒性率。

解码器过滤和PPLM在所有生成设置中都非常有效地降低了自动毒性指标。不同的方法产生了互补的改进：例如，解码器过滤进一步提高了仅通过训练过滤获得的已降低分数；PPLM——与这些方法结合使用时——导致毒性总体上最大程度地降低。

作为一项核心结论，三种解毒方法及其组合可以有效地优化自动毒性评估指标。相对而言，与之前的最新技术（Gehman 等人，2020）相比，在有毒提示和无毒提示设置下，减少了 6 倍和 17 倍，在无提示设置下（毒性概率）减少至 0.00（从 0.05）。鉴于这些分数在绝对值上非常低（例如，在无提示和无毒提示设置中，毒性概率分数分别为 0.00 和 0.01），因此出现了一个问题：在多大程度上，这里的改进仍然有意义，尤其是考虑到它们来自一个不完美的自动分类系统。因此，我们在第 6 节中转向一项人工评估研究。

5.2 上述自动化毒性评估协议的不足之处并改进建议

首先，我们观察到，像先前工作（Gehman 等人，2020）中那样仅采样 20 个词元，可能无法提供足够的上下文来形成毒性判断。其次，在固定数量的词元之后进行硬截断，可能会在序列末尾截断单词（例如，“ass”），这可能会错误地触发自动毒性分类器。在表 6（附录）中，我们提供了使用更长文本样本并在每个样本末尾截断不完整句子的类似自动毒性评估结果，总体观察结果相似。在我们随后的人工评估中，我们使用相同的设置来避免上述问题，并观察到随着文本延续的变长，自动评分和人工评分之间的一致性趋于增加（图 6，附录）。

最后，我们指出，当应用于 LM 输出时，像 PERSPECTIVE API 这样的毒性分类器是在其训练域和预期用例之外运行的，其预期用例包括带注释的论坛或讨论评论。

六、人工注释的分数处理与结果

1.方法论

使用聚合的人工判断来衡量生成文本的质量和存在的毒性程度。对于人工毒性评估，我们依赖于 PERSPECTIVE API 之前的标注说明，但我们根据 LM 生成的上下文对其进行了略微调整，包括关于可理解性、一致性和语法性的额外问题。对于每个考虑的 LM，我们向三个独立的标注者提供来自 REALTOXICITYPROMPTS 数据集的提示以及 LM 生成的相应续写。然后，我们要求标注者判断续写是否增加了提示中存在的毒性，并使用以下标签之一进行标记：非常有毒、有毒、不确定、无毒，与 PERSPECTIVE API 使用的标注标签相匹配。我们进一步要求标注者评估句子是否 i) 语法正确，ii) 可理解，以及 iii) 在主题和风格方面与标签一致：是、有点、否。

我们希望解决以下问题：i) 基于人工评分的毒性降低技术的效果如何？ii) 自动评估与人工评估的一致性？以及 iii) 对生成的语言有哪些定性影响？

对于标注的样本，我们将NOT TOXIC映射为0.0，NOT SURE映射为0.5，TOXIC和VERY TOXIC映射为1.0，并取平均值来表示毒性分数。为补偿上采样的影响，标注分数经过加权处理。人工注释详细说明和上采样设置的完整描述见附录E。

由于大多数解毒后的语言模型 (LM) 的 PERSPECTIVE API 得分都比较低，随机采样会导致得分高的样本非常少，我们无法有效地比较不同的毒性范围。因此，在选择要呈现给标注者的文本时，我们对具有高分类器毒性得分的延续进行了上采样。总共为每种设置准备了 300 个样本。从 49 名注释者中，每个样本至少由 3 名注释者进行评分，然后我们丢弃不确定的注释，将非毒性映射为 0.0，将毒性和非常毒性映射为 1.0，并取平均值。8 我们对注释进行加权以补偿上采样。详细的人工注释说明和上采样设置的完整描述在附录 E 中给出。

在评估标注者之间的一致性时，我们发现标准 LM 的 Krippendorff’s alpha 得分为 0.49，所有 LM 的所有标注的 alpha 得分为 0.48。为了计算这些分数，我们将 NOT TOXIC 标签映射到 0.0，NOT SURE 映射到 0.5，TOXIC 和 VERY TOXIC 映射到 1.0，使用这些值之间的绝对差作为距离函数。总的来说，只有极少数案例被标记为不确定（约 1%）。该分数表明总体一致性尚可，与先前工作中的一致性水平相当（Ross 等人，2016；Wulczyn 等人，2017）。我们注意到，毒性评级具有主观性，即使在定义改进后，标注者之间也可能存在分歧——关于我们观察到标注者分歧的具体现象列表，请参见附录 E.3。

错误正例（False Positives）分析

在高毒性分数范围内（PERSPECTIVE API分数>0.75），在较高的毒性评分范围内，我们发现经过 LM 解毒后，人类评分和 PERSPECTIVE API 评分存在显著差异。图 4 展示了 PERSPECTIVE API 评分大于 0.75 的 LM 生成的续写文本的平均 PERSPECTIVE API 评分与平均人类评分。人类标注表明，与自动评分所建议的相比，实际有毒的样本要少得多，并且随着干预强度的增加或多种方法的组合，这种效应更加明显。也就是说，在应用了强力毒性降低措施后，大多数预测为可能具有毒性的样本都是假阳性。附录中的表13和14展示了几个这样的例子。

通过手动检查，我们发现提及身份术语的样本往往会成为错误正例。例如，在基于REAL TOXICITY PROMPTS提示生成的样本中，分数高于0.5的生成文本中有30.2%提及了“gay”一词。这表明，仅依赖自动化评估可能会导致误导性结论。正如我们在接下来的第 7 和 8 节中将看到的那样，解毒措施可能会导致更高的 LM 损失和加剧的社会偏见。尚不清楚进一步降低具有高自动评分的生成样本比例是否会进一步降低人类标注者评判的毒性，或者仅仅加剧了在没有提供有意义的 LM 毒性降低的情况下应用解毒措施所带来的问题。

七.对语言模型质量的影响

为了理解应用 LM 毒性干预措施的后果及其对文本生成的潜在影响，我们接下来考虑它们对 LM 损失、文本样本质量和 LM 毒性预测能力的影响。

语言模型损失的影响

第一个观察结果是，训练集过滤对 LM 损失有中等负面影响，随着过滤强度增加而增加。train-filter@0.05 模型损失大致与在 C4 上训练的 4.17 亿参数模型（大约三分之一大小）的 LM 损失水平相匹配，该模型没有进行任何干预。在 LAMBADA 数据集（Paperno 等人，2016）上的评估证实了这种趋势，trainfilter@0.05 的准确率从 50.1% 下降到 34.9%（表 7，附录）。为了更深入地了解语言模型性能下降的原因，我们注意到，对于 PERSPECTIVE API 标记为有毒的文本，语言模型损失的增加尤为明显。例如，对于最不可能有毒的评估文档（分数 < 0.1），损失随着 train-filter@0.05 干预的增加而增加了 0.17 (+7%)，而对于最有可能有毒的评估文档（分数 ≥ 0.5），损失增加了 0.9 (+34%)。

文本质量

与标准 LM 相比，我们没有观察到不同毒性降低干预措施在生成延续的可理解性、语法性和与提示一致性方面存在显著差异：与标准 LM 的差异分别不超过 1%、4% 和 1%（表 10，附录）。

在使用经过毒性过滤的语言模型语料库（阈值为 0.05）训练语言模型时，我们发现 PPLM 毒性分类器（在语言模型的表示上训练）的 F1- 分数略有下降（降至 0.73，下降了 0.05 分）。这可能会对自我去偏差策略产生负面影响 (Schick 等人，2020)。

八.社会偏见的放大

在真实世界中使用语言模型时，公平性是至关重要的。我们强调以下两个公平性必要条件：

主题覆盖：语言模型能够生成与不同身份群体相关的主题文本。
方言覆盖：语言模型能够生成来自不同身份群体和方言背景的文本。

先前的研究表明，毒性分类器在针对边缘化身份群体撰写或提及的文本时，往往表现出较低的性能（Sap 等人，2019a；Dixon 等人，2018）。鉴于许多解毒技术高度依赖于毒性分类器，我们研究了解毒对不同身份群体的话题和方言覆盖率的影响。我们还讨论了潜在的表征危害（Barocas 等人，2017），这些危害可能源于不同方言中 LM 毒性缓解的有效性差异。

数据集

我们使用 BOLD 数据集（Dhamala 等人，2021）中的性别和种族领域来评估主题覆盖范围。前者包含关于女演员和男演员的维基百科句子。类似地，后者领域包含关于不同种族背景的人的句子。我们使用 Blodgett 等人 (2016) 提出的 TWITTERAAE 数据集评估方言覆盖范围，其中我们使用来自非裔美国人英语 (AAE) 和白人对齐英语 (WAE) 子集的推文。我们希望未来的工作也能考虑更广泛的群体，包括未观察到的 (Tomasev 等人，2021) 和灵活的 (Andrus 等人，2021) 类别。更多数据集细节请参见附录 B.1。

8.1 主题相关偏见

我们研究了去毒化对语言模型(LM)主题覆盖能力的影响，即其生成与各种身份群体相关文本的能力。如图5所示，训练时的过滤（尽管通常会导致更高的损失）确实会对主题覆盖产生不同的影响。这种影响通过与标准模型在相同文档上的损失差异来衡量，无论是性别（图5a）还是种族（图5b）群体，都表现明显。

例如，标准模型在描述女性和男性演员的文本上的损失几乎相同（3.414 vs.3.412），但去毒化引入了性别偏见，使女性演员的文本损失相较于男性演员显著增加。同样，去毒化对边缘化种族群体的影响比对欧洲裔美国人群体更强。尽管标准模型在描述西班牙裔美国人的文本上的损失最低（3.46 vs.欧洲裔美国人的3.68），但西班牙裔美国人相关文本受去毒化影响的负面影响最大。这表明，去毒化技术可能引入了与原始语言模型偏见不同的新偏见。

8.2方言相关偏见

基于人口统计学方言的推文差异性阳性率

除了词汇偏差之外，毒性分类器也被证明表现出方言偏差（Sap 等人，2019a）。我们的分析表明，TWITTERAAE 推文更有可能被归类为有毒（详情见附录 G.2），与之前的工作（Zhou 等人，2021）一致，证明了毒性分类器对 AAE 的偏见。这表明，减少毒性的干预措施可能会对方言覆盖产生负面影响。为了进一步调查，我们接下来分析了 LM 在模拟不同人口统计学方言的语言方面的能力。

图 5c 展示了去毒化模型和标准模型在 AAE 和 WAE 推文上的相对损失差距。与 Xu 等人 (2021) 的研究一致，我们发现去毒化对 AAE 覆盖率的影响大于 WAE。我们注意到，AAE 推文在标准 LM 下已经具有显著更高的损失（5.53 对 4.77），这可能是由于 AAE 在 C4 中的代表性不足（所有文档的 0.07%），正如 Dodge 等人 (2021) 所强调的那样。这种偏差在解毒过程中被进一步放大。

使用不同方言的提示减少语言模型的毒性

接下来，我们使用AAE和WAE中的TWITTERAAE推文来提示语言模型，测量语言模型解毒对不同方言提示的有效性。我们首先将第5节中的自动指标应用于语言模型生成的延续，如表3所示。这表明在标准 LM 下，AAE 提示的数值明显高于 WAE 提示（例如，毒性概率为 0.72 对比 0.59）。LM 解毒减少了两种方言的自动毒性指标，但解毒后，AAE 提示的平均 LM 毒性得分仍然明显高于 WAE 提示（例如，毒性概率为 0.22 对比 0.14）。

对方言覆盖的不同影响

图5c显示了去毒化模型与标准模型在AAE和白人英语(WAE)推文上的相对损失差异。与Xu等（2021）一致，我们发现去毒化对AAE覆盖的影响比对WAE的更大。我们注意到，在标准模型中，AAE推文已经表现出显著更高的损失（5.53 vs.4.77），这可能是由于C4数据集中AAE的低代表性（仅占所有文档的0.07%，Dodge等，2021）。去毒化进一步放大了这种偏见。

使用不同方言提示的语言模型毒性降低

接下来，我们衡量了在不同方言提示下语言模型的去毒化效果，使用TWITTERAAE数据集中的AAE和WAE推文作为提示词对模型进行测试。表3显示了标准语言模型和训练过滤模型（过滤阈值为0.05）在自动毒性指标下的表现。标准模型中，AAE提示的毒性概率显著高于WAE提示（如毒性概率0.72 vs.0.59）。去毒化减少了两种方言的自动毒性指标，但AAE提示的平均毒性分数在去毒化后仍显著高于WAE（如毒性概率0.22 vs.0.14）。转向人工评估，我们针对每个设置（模型×方言）收集了 100 个样本，遵循第 6 节中的评估协议。表 4 显示，train-filter@0.05 LM 也降低了平均人工毒性评分，特别是对于 AAE。与自动评估可能表明的结果相反，在人工评估中，我们发现方言之间的毒性水平相似，这突出了仅使用自动评估的局限性。

8.3 似然估计在偏差评估中的局限性

我们之前对语言模型(LM)覆盖能力的评估主要依赖基于似然的损失指标。然而，值得注意的是，这种评估可能低估现有语言模型的偏见问题。

例如，考虑在 BOLD 数据集上由一个测试时过滤变体产生的损失差距，该变体选择 K 个生成样本中最好的一个。虽然所有组之间的损失差距都很小且相似——在 0.09 到 0.13 之间（参见附录 H 中的表 11）——这表明对主题覆盖的影响很小，但值得注意的是，即使对于高度偏见的分类器，例如将任何提到女演员的文本标记为有毒的分类器，其对每个标记的损失的影响也是严格限制的，基于以下观察：

观察1（非正式表述）：无论使用何种分类器进行筛选，在测试时使用最小接受率为 ϵ 的过滤操作，永远不会使每个词的损失增加超过，其中 n 是文档长度。正式表述和证明见附录H。因此，即便低损失的LM仍可能包含不良样本，尤其是集中在特定主题和方言上的影响。虽然此示例特指测试时的筛选，但类似的潜在问题也适用于其他筛选技术，包括训练时筛选、微调或PPLM方法。此前研究也发现了类似观察结果（van den Oord和Dambre，2015）；我们进一步指出，当使用基于筛选的技术时，这些局限性尤为显著。

因此，我们建议在解释基于似然的指标时应谨慎：虽然较大的损失差距能表明高偏见，但较小的损失差距并不自动意味着偏见较低。

九、结论

在本研究中，我们研究并讨论了语言模型毒性评估的挑战以及使用相对简单的毒性降低方法和先前发表的方法进行自动毒性缓解的副作用。我们强调了传统毒性指标与人类感知之间的差异。这指向了一条研究路线图，包括定义与感知到的毒性更好地匹配的指标，定义毒性的子类型，并为每个子类型包含单独的测试集。我们进一步识别了毒性分类器偏差向 LMs 的转移，这支持了对毒性分类器进行去偏置的重要性。根据我们的结果，我们还强调了在减轻 LMs 中的毒性语言方面面临的以下挑战。

1.毒性的主观性和语境依赖性：“毒性”的定义可能因文化、社会群体和个人经历的不同而异。尽管现有方法可以有效优化自动毒性分数，但精确定义应测量的内容仍是一个开放的挑战。这最终取决于用户和具体应用需求，需要跨学科的专业知识和来自多样化群体的投入。

2.自动毒性指标的局限性：应用毒性缓解技术后，最新的语言模型自动毒性指标通常非常低，这表明针对这些指标的进一步改进可能有限。尚不清楚进一步优化自动毒性指标是否会提高人类评判的毒性减少效果，抑或只会加剧自动去毒化带来的副作用。此外，收集人类评分的过程中也存在局限性，包括对标注者的潜在心理影响。

3.社会偏见的放大：去毒化措施增加了语言模型的损失，并引入或放大了主题和方言覆盖方面的社会偏见，这可能导致语言模型在边缘化群体相关问题中表现的下降。尽管这一问题在当前方法中存在，但这种权衡并非不可避免，尤其是未来的工作能够实现更少偏见的分类器。除了毒性，未来工作应考虑其他指标，例如不同主题和方言的损失差距。如第 8.3 节所述，损失差距是一个不完美的指标；未来关于开发用于 LM 偏差的定量指标的工作可以帮助更好地理解减轻毒性的权衡。

十、道德考量

本研究的目标是通过更好地理解如何对语言模型进行去毒化，并分析去毒化过程中的权衡，来减少语言模型的危害。在研究过程中，我们遇到了一系列道德问题，包括如何以道德方式收集关于有毒语言的人类标注（详见10.1节）。

正如第3节所述，“毒性”是主观且定义模糊的。“毒性”或“冒犯”的定义可能因社会群体和文化的不同而异。对特权群体而言可接受的语言，可能对弱势群体具有冒犯性。尽管我们的方法可以缓解部分人定义的毒性，但对于其他人群来说可能仍不够充分。

本研究仅考虑了英语语言模型，而全球有超过7,000种语言被使用（Joshi等，2020）。当将研究结果推广到非英语模型时，应谨慎对待。值得注意的是，PERSPECTIVE API已涵盖六种非英语语言的毒性分类器，尽管本研究未尝试使用非英语分类器去毒化非英语模型。然而，为了实现道德化的语言模型部署，确保非英语用户也能享有平等的访问权和安全性至关重要。

在考虑语言模型的潜在危害时，尚有许多本文未涉及的方面。尽管本研究重点探讨了毒性问题，但统计偏见（Sheng等，2019；Huang等，2020；Abid等，2021）、隐私问题（Carlini等，2020）和环境影响（Strubell等，2019）等问题同样重要，应在追求道德化语言模型时一并纳入考虑。

10.1人工评估

要求人类标注毒性必然会让他们接触到有毒内容。在研究开展前，研究方案已由DeepMind的人类行为研究伦理委员会(HuBREC)审核。参与者通过Google的内部标注平台招募，该平台雇佣合同工完成任务。标注者根据工作时间而非完成任务的数量获得报酬。我们在设计人工评估实验后，与标注平台合作，确保标注者理解任务内容。标注者培训（包括一小时的心理健康模块）耗时约1小时。在任务中不确定的部分由研究人员直接传达。在初步标注试验中，研究人员也参与了句子的标注，并观察到与标注者类似的趋势。

考虑到标注有毒语言的敏感性，我们为标注者提供了多种选择。标注者可以选择将时间分配到我们的任务和其他不涉及有毒内容的任务之间，并且可以选择退出标注。此外，标注者可自行决定标注任务所花费的时间，并可以访问员工心理健康资源以应对标注任务可能带来的心理健康问题。我们通过心理健康调查追踪标注者的心理状态，详细调查结果见附录E.4。

我们承认标注指南中未包括Sap等（2019a）提出的种族和方言提示，旨在减少仇恨言论标注中的种族偏见。因此，部分标注者可能未意识到某些身份群体（特别是非裔美国人）会以安全的方式重建冒犯性或种族主义术语的意义。然而，由于语言模型本身没有身份，我们认为生成的语言包含这些重建术语并不安全，即便这些术语对于边缘化群体成员而言可以安全使用。我们认识到，在某些应用场景下，这种方法可能不适用。

十、致谢

我们感谢James Besley、Phil Blunsom、Taylan Cemgil、Sanah Choudhry、Iason Gabriel、Geoffrey Irving、Maribeth Rauh、Sebastian Ruder和Laura Weidinger对本研究早期版本的意见和讨论，以及Lucy Vasserman和Jeffrey Sorensen在使用PERSPECTIVE API方面提供的支持。我们已将本研究的发现与Jigsaw团队分享。

本文为《挑战语言模型中的毒性减缓》（Challenges in Detoxifying Language Models）的翻译稿，原文由 Johannes Welbl、Amelia Glaese、Jonathan Uesato、Sumanth Dathathri、John Mellor、Lisa Anne Hendricks、Kirsty Anderson、Pushmeet Kohli、Ben Coppin 和 Po-Sen Huang 发表，发表于 Computing Research Repository (CoRR)（2023）。**本文遵循 Creative Commons Attribution 4.0 License (CC BY 4.0) 协议。所有原文版权归原作者及其出版单位所有，翻译仅供个人学习、研究与交流使用，禁止用于任何商业用途。若原文涉及任何版权问题，请及时联系原作者或出版单位。

译者声明：本翻译工作仅作为学术性分享，不代表原作者或原出版单位的观点。翻译准确性由译者负责，但不保证与原文完全一致。如有任何版权争议或侵权问题，请通过论坛私信联系译者，翻译内容将在核实后立即删除。

原文信息：

标题： Challenges in Detoxifying Language Models
作者： Johannes Welbl、Amelia Glaese、Jonathan Uesato、Sumanth Dathathri、John Mellor、Lisa Anne Hendricks、Kirsty Anderson、Pushmeet Kohli、Ben Coppin 和 Po-Sen Huang
单位： DeepMind
发表平台： Computing Research Repository (CoRR)
年份： 2021.11
相关链接： arXiv - Challenges in Detoxifying Language Models