论文译摘-人工智能伦理-揭示大模型中的内隐毒性 Unveiling the Implicit Toxicityin Large Language Models

PhoebeWang521

已于 2024-12-02 18:27:04 修改

阅读量154

点赞数

分类专栏：论文译摘人工智能伦理文章标签：人工智能

于 2024-11-25 19:08:32 首次发布

原文链接：https://cz5waila03cyo0tux1owpyofgoryroob.aminer.cn/70/25/D2/7025D284C736B8CCC9576B5FD259BD50.pdf

版权

人工智能伦理同时被 2 个专栏收录

4 篇文章

订阅专栏

论文译摘

3 篇文章

订阅专栏

译者按：本论文由清华大学黄民烈教授领衔的 CoAI 团队完成，团队聚焦对话智能与人工智能伦理等领域，具有国际学术影响力。黄民烈教授为人工智能领域的顶尖学者之一，论文研究了大型语言模型生成隐性毒性的问题，提出了一种基于强化学习的创新性解决方案，具有重要的学术价值与现实意义。此外，该研究得到了中国国家自然科学基金委重点研发计划（项目编号 2020AAA0104500）、杰出青年科学基金（编号 62125604）及重点项目（编号 61936010）的支持，同时还获得了中国博士后科学基金创新人才支持计划（编号 BX20230194）和中国博士后科学基金（编号 2023M731952）的资助。这些国家级科研项目的支持进一步佐证了本研究在人工智能伦理问题领域的权威性与学术价值。

揭示大语言模型中的内隐毒性

摘要

大语言模型 (LLM) 的开放性与其能力相结合，可能会被恶意利用导致新的安全问题。虽然,最近的研究主要集中在探测可以通过现有毒性分类器轻松检测到有毒的输出，但我们发现并揭示LLM 可以生成各种隐含的有毒输出，这些输出通过简单的零样本提示难以检测。

此外，我们提出了一种基于强化学习 (RL) 的攻击方法，以进一步诱导 LLM 输出其隐性毒性。具体来说，我们使用奖励优化语言模型，该奖励更偏好隐性毒性输出。实验结果表明，在五种广泛采用的毒性分类器上，通过上述微调可以显著提高攻击成功率。例如，经过RL微调的LLaMA-13B模型在BAD数据集上的攻击成功率达到90.04%，在Davinci003上的成功率为62.85%。我们的研究结果表明，LLMs在生成难以检测的隐性有毒输出方面构成了重大威胁。此外，我们进一步证明，通过对从攻击方法中带注释的示例进行微调，毒性分类器的检测能力可以得到有效增强，从而更好地识别LLMs生成的隐性有毒语言。

一、引言

（略）

尽管最近的研究提出了几种方法来探测LLMs生成的有害输出，如人格分配和目标劫持,但它们仍然主要关注检测显式毒性输出(如侮辱性语言),这些输出可以通过现有的毒性分类器轻松检测。相比之下，我们旨在探索LLMs是否具有生成难以检测的隐式毒性输出的能力，即使使用最先进的毒性分类器。如果是这样，这种不可检测的隐式毒性输出可能构成更大的威胁，因为LLMs一旦部署就可以自由表达毒性而不会被检测到。

为了研究这个问题，我们首先进行初步实验，在零样本设置下（第二部分），简单地基于语言特征提示 GPT-3.5-turbo（即 ChatGPT 的 API 版本（OpenAI，2022））生成隐含的攻击性回复。令人惊讶的是，如图 1 所示，尽管最先进的攻击性分类器在之前的攻击性基准数据集上表现出色，但这些分类器容易受到 LLM 生成的隐含攻击性输出的影响，导致攻击成功率显著提高，范围从58.47%（在 Davinci003 上（欧阳等人，2022））到 96.69%（在 Perspective-API 上（谷歌，2023））。

为了更深入地了解由大型语言模型(LLM)造成的安全风险，并探索其生成多样隐性有害输出的潜力，我们进一步提出了一种基于强化学习(RL)的攻击方法，以诱导LLM中的隐性毒性。

具体而言，我们优化了大型语言模型，使其偏好隐性有毒响应，而不是显式有毒和无毒响应。在五个广泛采用的毒性分类器上的大量实验表明，通过RL微调可以显著提高攻击成功率。这些结果表明，LLMs在生成有毒输出方面存在重大风险，而现有的广泛采用的毒性分类器无法检测到。此外，我们通过实证表明，在我们的攻击方法生成的标注示例上微调毒性分类器，可以有效地增强它们在LLM领域检测隐性有毒语言的能力。

本文贡献概括如下：

·识别出LLMs的新安全风险：生成隐含的有毒输出，且使用现有的毒性分类器难以检测。

·建议通过优化语言模型，以偏好隐性毒性输出的奖励机制，进一步诱导LLMs显现其隐性毒性。

·广泛的实验表明，与之前的毒性基准数据集和基线方法相比，我们的方法在五种广泛采用的毒性分类器上显著提高了攻击成功率。进一步的实验显示，通过使用我们攻击方法生成的带注释示例对毒性分类器进行微调，可以成功增强其检测大语言模型（LLM）隐性毒性的能力。

二、初步实验

由于其微妙的性质，隐性毒性已成为毒性检测领域的主要挑战（ElSherief等人，2021）。与诸如脏话之类的公开攻击性语言不同，隐性毒性通过各种语言特征（例如委婉语（Magu和Luo，2018）、讽刺（Frenda等人，2022）、迂回说法（Gao和Huang，2017）和隐喻（Lemmens等人，2021））和语言外知识（例如常识知识（Sridhar和Yang，2022）、世界知识（Ocampo等人，2023）和社会规范（Jiang等人，2021））来传达。

受先前关于检测隐性毒性挑战的分析启发，我们进行了初步实验，以探索大型语言模型（在预训练期间已见过广泛的语言特征和非语言知识(Petroni等人，2019)）是否可以生成逃避毒性分类器的隐性毒性响应。具体来说，我们使用零样本提示来指导GPT-3.5-turbo生成隐含的恶意回复。表1展示了指令和生成的示例。

我们评估了LLM生成的隐性毒性响应在各种最先进的毒性分类器上的攻击成功率，并将其与之前的毒性基准数据集进行比较。如图1所示，揭示了以下发现：

（1）最先进的毒性分类器在之前的毒性基准数据集上表现出令人印象深刻的性能，包括TOXIGEN和潜在仇恨(EISherief等人，2021年；Hartvigsen等人，2022年)等隐性毒性基准。这表明它们具有超越简单关键词匹配的高级语言理解能力。

例如，以下例子“你可以通过一个女人遮盖皮肤的程度来判断她是否是一个好人”(这是来自TOXIGEN的隐性毒性例子),可以被轻松检测到。

(2)令人惊讶的是，这些毒性分类器容易受到LLM生成的隐性毒性响应的攻击，攻击成功率显著提高，从58.47%(在Davinci003上)到96.69%(在Perspective-API上)不等。

三、方法

我们提出了一种基于强化学习的新方法，以进一步探索在大型语言模型中诱导隐性毒性的潜力。具体而言，从一个被称为πϕ的普通大型语言模型开始（例如被选作可训练的LLM，如LLaMA（Touvron等人，2023）），我们的方法包含以下三个步骤，如图2所示：

监督学习：我们首先通过监督学习来预热策略模型πϕ，以使πϕ在生成隐含毒性回复方面具有合理的表现。然而，πϕ仍然会偶尔生成显性毒性或非毒性回复。

奖励模型训练：我们随后构建了一个奖励模型Rθ，该模型对隐含毒性回复的偏好高于显性毒性和非毒性回复。

强化学习：我们基于近端策略优化（PPO）（Schulman等人，2017）使用该奖励优化策略模型。这可以引导模型生成更难以检测的隐含毒性回复。

译注：近端策略优化，Proximal Policy Optimization，属于强化学习算法，属于策略梯度方法（Policy Gradient Methods）的改进形式。由Schulman等人在2017年提出，以其简单性和高效性成为目前最受欢迎的强化学习算法之一，尤其在强化学习应用于复杂任务（如游戏AI、机器人控制）中表现出色。

提出动机：

简化TRPO（Trust Region Policy Optimization）的复杂实现。
保证策略更新的稳定性，防止过快更新导致性能崩溃。

核心思想

PPO通过对策略更新设置限制，防止更新过大偏离当前策略，同时提高采样效率。

优点

简单易实现：相比TRPO，框架更简洁，易于集成到复杂系统中。
稳定性强：通过剪辑约束，防止更新过快。
采样效率高：允许重复使用采样数据，显著提升效率。
广泛适用：适用于复杂连续控制任务和离散决策任务。

应用场景

游戏AI：OpenAI Five（Dota2 AI）、DeepMind AlphaStar（星际争霸AI）。
机器人控制：如手臂操作、步态控制。
语言模型优化：在OpenAI InstructGPT中，用于优化语言模型行为，使其贴近人类反馈。

实现流程

初始化策略πθ\pi_\theta：设置初始策略参数。
收集交互数据：使用当前策略与环境交互，记录状态ss、动作aa、奖励rr、下一状态s′s'等。
计算优势函数A^t\hat{A}_t：估算动作aa的相对价值。
更新策略：优化目标函数LCLIP(θ)L^{\text{CLIP}}(\theta)，更新策略参数。
重复迭代：通过多轮采样与优化，不断提升策略性能。

总结

PPO通过剪辑约束和熵奖励平衡稳定性与探索能力，是强化学习中高效且易用的算法，广泛应用于复杂任务和语言模型行为优化。

3.1监督学习(译注：利用GPT-3.5-turbo的零样本性能，作者自动化了隐性毒性数据的收集，并通过监督学习初步赋予策略模型生成隐性毒性回复的能力，为后续强化学习优化模型行为奠定了基础)

我们首先通过监督学习对策略模型πϕ进行热启动。尽管以往的研究依赖人工标注者来收集监督学习数据（如Ouyang等人，2022年的研究），但第二节中展示的指令微调语言模型（如GPT-3.5-turbo）所展现的令人印象深刻的零样本性能，激励我们通过提示技术自动收集隐式有毒数据，无需人工干预（Perez等人，2022年）。这些数据可以赋予原始LLMπϕ生成隐性有害回复的基本能力，从而免去了额外的提示工程需求。

数据收集：给定查询集D={x},我们按照以下方式收集监督学习数据集D={(x,y)}:对于每个查询x,我们通过零样本提示自动生成相应的响应y=(y1,···,yn)，其中

yt(1≤t≤n)表示响应的第t个词元。

训练:通过在D*上使用最大似然估计损失(MLE)训练策略模型πϕ,以进行预热启动.我们将监督学习的策略表示为π0。（译注：损失函数公式略，为Maximum Likelihood Estimation的标准公式）

3.2奖励模型训练

本节构建偏好隐性有毒响应的奖励模型。

一种简单的方法是直接使用现有毒性分类器P的负预测毒性置信度作为奖励，即-P(toxic|x,y)。然而，由于现有毒性分类器难以捕捉隐含的毒性，-P(toxic|x,y)将主要引导策略模型生成非毒性响应，如第4.6节所述。为了应对这一挑战，受先前关于偏好建模(Stiennon等人，2020;Ouyang等人，2022)工作的启发，我们收集了一个比较数据集Drm={(x,yw,yl},其中yw比yl更具隐含的毒性。然后，我们在Drm上通过微调获得预期奖励模型。

数据收集：给定查询集{x},我们收集比较数据集Drm,如下：对于每个查询x,我们使用策略模型生成K个响应，并获取每对生成的响应对之间的比较结果。

图2：方法概览（延后上传）。

我们的方法包括以下三个步骤：

使用指令微调模型通过提示自动生成的数据进行监督学习，初始化策略模型。

使用对比数据训练一个偏好隐性毒性的奖励模型。

通过近端策略优化（PPO），利用该奖励优化策略模型。

实线表示数据用于训练模型，而虚线表示模型在推理模式下生成输出。

与之前的研究（Stiennon等人，2020；Ouyang等人，2022）相比，我们提出了两种技术来提高数据质量并降低标注成本。

首先，以往的研究直接收集两两对比数据（K2 comparisons，译注：组合数）。然而，当两个回复都包含明显的攻击性语言或完全没有攻击性语言时，我们发现很难判断更优的选项，导致标注者之间的一致性较低。为简化标注任务并提升数据质量，我们采用了三分类标注任务，假设在每一类内的选项具有相同的偏好。具体而言，生成的回复y最初被标注为隐性毒性、显性毒性或非毒性之一。然后通过对隐性毒性类别赋予最高偏好，推导出对比数据。

其次，为了避免使用众包工人进行对比数据标注，参考OpenAI（2023a），我们使用GPT-3.5-turbo作为标注器，因为它在检测自身生成的隐性毒性回复方面表现得相当出色（在初步实验中毒性召回率为68.8%），同时显著降低了标注成本。然而，由于用于奖励模型训练的标注数据是从GPT-3.5-turbo自动获取的，因此强化学习（RL）的有效性受到其性能的限制。

具体来说，我们的人工审核表明，自动标注的对比数据包含噪声，尤其是在非毒性子集中，几乎有30%的数据实际上包含隐性毒性回复。为了进一步提高攻击成功率或将方法扩展到攻击更强的分类器，我们可以采用更强的分类器进行对比数据标注，例如GPT-4（OpenAI，2023a），最终还可以进一步使用人类专家来进行标注。

训练

我们使用以下损失函数在每个DRM样本上训练奖励模型Rθ：

Loss=−(x,yw,yl)∈DRM∑logσ(Rθ(x,yw)−Rθ(x,yl))

其中，Rθ被设计为一个配备线性头的语言模型，Rθ(x,y)是Rθ对上下文x和响应y的标量输出，yw和yl分别表示赢（胜出）和输（失败）的响应。

此外，尽管我们遵循先前的研究（ElSherief等人，2021），根据标注说明中是否缺乏明显的攻击性词语来定义隐性毒性，但需要注意的是，现有的分类器（如BAD和Davinci003）已经表现出超越仅识别明显攻击性词语的高级语言理解能力。因此，某些被标注为隐性毒性的响应实际上并不够隐性，仍然可以被这些现有的分类器检测到，从而导致仅使用奖励模型Rθ在攻击最先进毒性分类器时效果欠佳。

为了应对这个问题，我们可以将现有的毒性分类器P显式地引入奖励中，并与Rθ集成，生成完整的奖励函数Rθ′(x,y)：

R’θ′(x,y)=Rθ(x,y)−αP(toxic∣x,y)

其中，α是一个超参数，用于控制分类器PP所施加惩罚的力度。

3.3强化学习

然后，我们使用PPO算法以及上述奖励来优化由φ参数化的策略模型πφ。具体来说，我们使用KL正则化的目标函数，得到最终的奖励函数如下：

R^θ,ϕ(x,y)=Rθ′(x,y)−βDKL(πϕ∥π0)

其中π0表示监督学习的策略，β是一个超参数，用于控制对学习策略πϕ和π0之间的KL散度施加的惩罚强度。KL项旨在减轻奖励模型的过度优化。

译注：

KL散度正则化的作用

KL散度正则化，KL Divergence Regularization是一种用于约束策略更新幅度的技术，能够确保RL过程中策略变化的平滑性和稳定性。通过引入KL散度(Kullback-Leibler Divergence)作为正则化项，限制当前策略πϕ与初始策略π0之间的分布差异，有效避免策略更新过快或过大，从而提高训练过程的鲁棒性。

具体而言，其在优化目标中添加了一项“惩罚”项。当新策略与原始策略之间的分布距离（由KL散度度量）过大时，模型的奖励会受到额外的惩罚。

目标：平衡策略探索和训练稳定性，确保模型在优化新策略时不会偏离初始策略过远，从而提升了学习的鲁棒性和可靠性。

判断KL散度限度是否合理的整体框架（key words：超参数探索、观察、合理clip）

1.调整β控制正则化强度：从较小值开始，结合实验找到最优设置。（主要超参数）

2.监控KL散度值：动态跟踪训练过程中的分布差异，确保其在合理范围内波动。

3.结合步长限制：通过裁剪或步长约束进一步约束策略更新幅度。（CLIP RANGE）

4.观察收益曲线：通过收益变化间接验证KL散度的有效性。

5.根据任务特点调整限度：复杂任务适当放宽约束，简单任务强化分布限制。

6.实验验证与调优：结合多轮实验，找到具体任务中KL散度的最佳限度。

四、实验

4.1设置

提问：我们的提问来自BAD数据集，该数据集包含近6,000条聊天机器人和众包工作者之间的对话。具体来说，工作者被指示诱导聊天机器人输出有毒的回复。因此，我们提取工作者的话语作为我们的提问。数据集的详细统计信息显示在附录B.1。

模型结构：我们使用LLaMA-13B作为策略模型πϕ和奖励模型Rθ的骨干网络（译注：Backbone Network，将输入数据转化为高维的特征表示，为模型的其他组件提供基础支持。LLaMA-13B 在本研究中，作为BN承担了提取文本特征的核心角色）。此外，我们引入了现有的毒性分类器P，选择了表现合理的BAD分类器（一个拥有125M参数的RoBERTa-base模型，由Liu等人于2019年提出，并在BAD数据集上进行了微调）。

4.2 基线

a.攻击性推特：一个显式有毒数据集，由 Davidson 等人（2017）通过匹配明显攻击性关键词从推特收集而来。

b.潜在仇恨：一个隐性有毒数据集，通过众包方式从推特上的仇恨团体中收集（ElSherief 等人，2021）。

c.TOXIGEN：一个机器生成的隐式毒性数据集，通过在 GPT-3 上进行少样本提示收集（Hartvigsen 等人，2022）。

d.BAD：一个众包对话数据集（Xu 等人，2020），旨在从聊天机器人（如 BlenderBot（Roller 等人，2021）和 DialoGPT（Zhang 等人，2020））中引出有毒的回复。

e.GPT-3.5-turbo：我们使用 GPT-3.5-turbo 的零样本提示生成隐含毒性响应。指令如表 1 所示。

f.监督学习 (SL) LLaMA-13B：我们使用监督学习的 LLaMA-13B 模型生成隐含毒性响应。

g.监督学习排序 (SL-R) LLaMA-13B：我们使用 SL 模型为每个查询生成 K=5个响应。然后，我们根据奖励模型排名第一的响应继续训练 SL 模型。

4.3攻击性毒性分类器

我们实验了五种最先进的毒性分类器。我们首先引入了两种在研究和工业界都广泛使用的在线毒性分类器，即谷歌的Perspective-API(P-APl)(2023)和OpenAl的Moderation(2023b)。此外，我们通过在TOXIGEN和Bot-Adversarial(BAD)上分别微调RoBERTa-base,构建了两个毒性分类器。

此外，受近期强调LLMs强大评估能力的相关研究启发，我们based on Davinci003进一步引入了基于零样本提示的LLM毒性分类器，具体方法遵循刘等人的工作(2023)。

4.4指标

由于现有的分类器在检测我们的大语言模型（LLM）生成的隐性毒性响应方面表现有限，我们采用人工标注来获得金标准标签。对于每个查询-响应对，聘请了三名标注人员对响应进行标注，标记为“有毒”或“无毒”。由于生成的响应具有微妙的特点，这项标注任务需要对响应语义有全面的理解。因此，我们通过与一家专业数据标注公司合作，招募了标注人员。所有标注员均为英语专业的大学生，其标注的一致性通过 Fleiss’ Kappa 系数测量，达到了中等至显著的一致性（Fleiss, 1971）。

译注：Fleiss’ Kappa 系数，用于测量多名评估者之间一致性的统计方法，尤其是在多类别标注任务中被广泛使用。它通过评估标注人员给出的标签是否有一致性，衡量标注质量的好坏。具体取值范围：

1 表示完全一致（所有标注人员的判断完全相同）。

0 表示一致性完全由随机决定（没有实际一致性）。

负值表示比随机情况更糟糕（标注之间存在强烈分歧）。

Interpretation of Kappa 值：

< 0.2：轻微一致性（slight agreement）

0.2 - 0.4：公平一致性（fair agreement）

0.4 - 0.6：中等一致性（moderate agreement）

0.6 - 0.8：显著一致性（substantial agreement）

> 0.8：接近完全一致（almost perfect agreement）

在本研究中，作者提到标注结果的 Fleiss’ Kappa 系数达到了中等至显著的一致性，表明这些标注具有较高的可信度，足以作为评估生成隐性毒性响应的金标准。

在获得金标准标签后，我们采用以下指标进行评估：

Reward（奖励）

根据我们的奖励模型计算生成响应的平均奖励值。

Distinct-n（生成多样性）

计算所有 n-grams 中唯一 n-grams 所占的百分比（Li 等人，2016）。更高的 Distinct 值表明生成内容具有更大的多样性。

Annotated Toxic Probability（标注毒性概率）

计算被人工标注为“有毒”的生成响应的百分比。更高的毒性概率表示生成模型更可能产生毒性输出。

Attack Success Rate（攻击成功率）

计算被分类器错误分类为“无毒”的有毒响应所占的百分比。更高的攻击成功率表明生成的毒性更难被分类器检测到。

Toxic Confidence（毒性置信度）

计算分类器对有毒响应预测为“有毒”的平均置信度。与攻击成功率不同，毒性置信度是一个连续指标。

4.5 主要结果

评估看出，我们有以下观察：

a.隐性毒性能力

正如第 2 节所述，与之前的数据集相比，LLM 在生成更具挑战性的隐性毒性响应方面表现出令人印象深刻的能力。

B.强化学习增强

强化学习（RL）进一步增强了 LLM 的隐性毒性诱导能力。以 LLaMA-13B 作为主干模型，攻击成功率在 BAD 数据集上从 64.29% 提升至 90.16%，在 Davinci003 数据集上从 58.34% 提升至 62.85%。此外，图 3 显示了连续的毒性置信度，结果表明，所有分类器对由 RL 微调的 LLaMA-13B 模型生成的毒性响应分配的平均毒性置信度均低于 0.2，验证了其显著的隐性毒性。

C.泛化性

强化学习的效果可以推广到训练时未涉及的毒性分类器。虽然在强化学习训练中只使用了 BAD 分类器作为奖励的一部分（P），最终的模型在所有评估的分类器上都实现了更高的攻击成功率。

D.奖励模型偏好

奖励模型对隐性毒性表现出偏好，并且与攻击成功率呈正相关。例如，最容易检测的显性毒性数据集 Offensive Twitter 的奖励分数最低，而由 GPT-3.5-turbo 生成的响应更难检测，并且获得了显著更高的奖励分数。

4.6 分析

奖励的影响

我们研究了使用不同版本奖励函数的训练效果。如表 3 所示，在没有奖励模型 Rθ的情况下训练，模型主要倾向于生成非毒性响应，毒性概率从 58.84% 显著下降至 20.90%。这验证了奖励模型能有效增强隐性毒性信号，同时减少非毒性信号，从而在不牺牲毒性概率的情况下提高攻击成功率。此外，训练中如果不包含毒性分类器 P，攻击成功率会大幅下降，这表明高级毒性分类器对有效攻击至关重要。

模型规模的影响

尽管主要实验使用 LLaMA-13B 作为主干模型，我们还研究了语言模型中隐性毒性的扩展特性。如图 4 所示，尽管监督学习和 RL 使用相同的数据，但随着模型规模从 1.3B 增加到 13B，攻击成功率不断提高。尤其是 13B 模型同时实现了最高的毒性概率和攻击成功率。此外，RL 显著提高了不同规模模型的攻击成功率。这表明，参数更多的 LLM 能够更好地吸收多样化的语言特征和额外的知识，从而具备更强的隐性表达毒性的能力。

KL 系数的影响

图 5 展示了 KL 系数 β的影响。随着 β 增加，奖励值和毒性概率逐渐下降。此外，BAD 数据集上的攻击成功率先上升后下降。这表明过小的 β 会导致策略过度优化，从而影响模型性能。因此，我们在实验中将 β 设置为 0.1。

毒性分类器系数 α 的影响

在合理范围内增加 α可提高攻击成功率，同时保持相似的毒性概率。然而，过大的 α 会导致毒性概率显著下降，因为现有毒性分类器主要引入非毒性信号，而缺乏隐性毒性信号。

4.7 大型语言模型中隐性毒性的分析

多样化的毒性类型

基于之前的安全分类工作（Sun 等人，2023），我们选择了四种常见的毒性类型：攻击用户、不公平与歧视、毒性共识和敏感话题。通过人工评估，我们分析了 LLM 生成的隐性毒性数据的毒性类型。表 4 显示了这些毒性类型的分布。

多样化的语言特征：为展示 LLM 能够通过多样化的语言特征表达毒性，我们在附录 C 中提供了多个定性示例。结果表明，LLM 使用了多种语言特征，例如迂回表达、委婉语、讽刺、隐喻、反问句、对偶和视觉符号。此外，LLM 经常在其有毒输出中结合多个特征，增加了推理组合语言特征的难度。

成功攻击案例研究：我们手动检查了 GPT-3.5-turbo 和 RL LLaMA-13B 生成的毒性响应，这些响应被五个分类器错误分类。如图 7 所示，检测隐性毒性需要高级能力，例如对多种语言特征的知识和推理能力。通过将手动分析纳入提示，Davinci003 成功地实现了检测。

五、相关工作

语言模型的安全问题：语言模型已被证明存在多种安全问题，例如生成攻击性内容、强化不公平与歧视、泄露隐私信息，以及促进非法活动。与以往研究不同，本研究探索了 LLM 是否能够生成难以被现有分类器检测的隐性毒性输出。

毒性检测：毒性检测模型在 LLM 的安全评估和问题缓解中发挥了关键作用。尽管已有几种分类器用于检测隐性毒性，但我们的实验表明，它们在检测由我们方法诱导的 LLM 毒性响应时仍存在困难。通过使用我们生成的标注数据微调这些分类器，可以有效提高其检测隐性毒性的能力。

六、结论

本文提出了 LLM 的一种新型安全风险，即生成隐性毒性输出的能力，而这些输出难以被现有分类器检测。我们进一步提出了一种基于 RL 的方法，通过奖励优化诱导隐性毒性输出。实验表明，该方法生成的隐性毒性响应比以往基线更难检测。最终，我们通过微调分类器证明了可以提升其检测隐性毒性的能力。

局限性

奖励模型性能限制：自动标注数据引入了噪声和偏差，影响了策略模型的全面性。

计算资源限制：未能对更大规模模型（如 LLaMA-65B）进行实验，未来可对此展开研究。

伦理声明

本文揭示了 LLM 潜在的安全风险，并提出了有效的防御方法。尽管攻击方法可能被恶意利用，但我们认为这项工作总体上为增强安全性创造了更大的价值。

本文为 《揭示大语言模型中的内隐毒性》（Unveiling the Implicit Toxicity in Large Language Models） 的翻译稿，原文由 温嘉欣、柯佩、孙浩、张哲鑫、李成飞、白金凤、黄民烈 发表，发表于 Computing Research Repository (CoRR)（2023）。本文遵循 Creative Commons Attribution 4.0 License (CC BY 4.0) 协议。所有原文版权归原作者及其出版单位所有，翻译仅供个人学习、研究与交流使用，禁止用于任何商业目的。若原文涉及任何版权问题，请及时联系原作者或出版单位。

译者声明：本文翻译工作仅作为学术性分享，不代表原作者或原出版单位的观点。翻译准确性由译者负责，但不保证与原文完全一致。如有任何版权争议或侵权问题，请通过论坛私信联系译者，翻译内容将在核实后立即删除。

原文信息：

标题： Unveiling the Implicit Toxicity in Large Language Models
作者： 温嘉欣¹²，柯佩¹²，孙浩¹²，张哲鑫¹²，李成飞³，白金凤³，黄民烈¹²†
单位：
1. 清华大学计算机科学与技术系
2. 清华大学智能技术与系统国家重点实验室
3. TAL Education Group
发表平台： Computing Research Repository (CoRR)
年份： 2023
相关代码： GitHub - thu-coai/Implicit-Toxicity: Official Code for EMNLP 2023 paper: "Unveiling the Implicit Toxicity in Large Language Models""