论文翻译：Emulated Disalignment: Safety Alignment for Large Language Models May Backfire!-CSDN博客

本文链接：https://blog.csdn.net/WhiffeYF/article/details/141155706

在这里插入图片描述
https://arxiv.org/pdf/2402.12343v4
ACL 2024 | 大语言模型的安全对齐会适得其反？无需训练便能逆转安全对齐

Emulated Disalignment: Safety Alignment for Large Language Models May Backfire!

模拟错位：大型语言模型的安全对齐可能会适得其反！

摘要

大型语言模型（LLMs）会经历安全对齐，以确保与人类的安全对话。然而，本文介绍了一种无需训练的攻击方法，能够逆转安全对齐，通过仅访问LLM输出的标记分布，将更强对齐的结果转变为更大的潜在伤害风险。具体来说，我们的方法通过对比安全对齐的语言模型（例如，Llama-2-chat）与其预训练版本（例如，Llama-2）的输出标记分布，实现了这种逆转，使得标记预测向安全对齐的相反方向转变。我们称这种方法为模拟错位（ED），因为从这种对比分布中采样可以证明是模拟了微调以最小化安全奖励的结果。我们在三个评估数据集和四个模型家族（Llama-1、Llama-2、Mistral和Alpaca）上对ED进行的实验表明，ED使预训练模型的有害性翻倍，并超越了强大的基线，以较大差距在48个评估子集中43个中达到了最高的有害率。最终，鉴于ED依赖于语言模型输出的标记分布，这特别危及开源模型，我们的发现强调了需要重新评估语言模型的开放可访问性，即使它们已经进行了安全对齐。代码可在 https://github.com/ZHZisZZ/emulated-disalignment 上获取。

在这里插入图片描述
图 1：语言模型响应的有害率（%）。模拟错位（ED）通过在推理时简单地结合它们的输出标记分布，暴露了每一对预训练和安全对齐的语言模型内部的潜在风险。

1 引言

大型语言模型（LLMs）现在在聊天助手应用程序中很常见，展现出出色的推理和指令执行能力（Achiam等人，2023；Anthropic，2023）。为了最小化有害内容生成的风险，LLMs的这些新兴应用需要安全对齐，这是一种微调过程，引导预训练的LLMs1尽可能地提供帮助，同时保持安全（Bai等人，2022；Touvron等人，2023b；Achiam等人，2023）。

然而，众所周知，安全对齐是脆弱的：先前的研究表明，经过安全对齐的语言模型可以通过最小的微调被破坏（Qi等人，2023）。我们的攻击方法，模拟错位（ED），进一步展示了安全对齐可以被利用来促进有害内容的生成，而无需额外的训练。这种攻击基于以下直觉：

投入于使语言模型安全对齐的努力越多，如果对手能够逆转对齐方向，潜在的伤害就越大。

正式地，ED通过利用三个洞见来实现这一直觉：(1) 安全对齐的语言模型与其预训练版本之间的对数似然差异，充当与人类意图一致并惩罚有害响应的安全奖励函数（Rafailov等人，2024）；(2) 对预训练模型进行对抗性微调，以最小化这一安全奖励函数，会导致生成有害响应的语言模型错位（Wen等人，2023）（图2a）；(3) 关键的是，我们将这种对抗性微调定义为错位，可以通过从定义在预训练和安全对齐模型之间的对比分布中采样来模拟，使攻击易于分发（图2b）。

从经验上讲，我们首先在三个数据集和四个模型家族中评估ED：Llama-1、Llama2、Mistral和Alpaca。我们的结果表明，ED使预训练模型的有害性翻倍（图1），并且在48个评估子集中的43个中以较大差距达到了最高的有害率（第5节）。然后，我们进行合成实验来证明更强的对齐会导致更大的潜在伤害，并且无需训练的模拟错位可以与基于训练的直接错位相竞争（第6节）。

最终，由于ED需要访问语言模型在词汇表上的输出标记分布，这显著地危及了开源模型的安全性。因此，我们主张对语言模型的开放可访问性进行批判性的重新考虑，即使是那些已经进行了安全对齐的模型。

2 相关工作

安全对齐。安全对齐增强了语言模型对安全查询的响应的有用性，并防止对有害查询的不当响应（Bai等人，2022；Touvron等人，2023b）。大多数现代会话语言模型都经过了安全对齐，要么是通过故意的安全调整（Bai等人，2022；Touvron等人，2023b；Achiam等人，2023；Zhou等人，2023），要么是通过从包含与安全相关的数据的策划数据集中学习（Jiang等人，2023；Tunstall等人，2023）。然而，我们的研究表明，这些安全对齐的模型仍然可以被利用来生成无需额外训练的有害响应。

大型语言模型攻击。这项工作为LLM攻击领域做出了贡献，旨在从大型语言模型中引出有害响应。我们推荐读者阅读Dong等人（2024）的调查，以获得LLM攻击的全面概述。虽然大多数研究侧重于通过对抗性提示在输入空间内攻击语言模型（Zou等人，2023；Shen等人，2023；Liu等人，2023；Li等人，2023；Chao等人，2023），我们的工作针对的是输出空间，在推理时操纵语言模型的输出标记分布。鉴于我们的方法假设可以访问预训练模型的输出标记分布，这些模型已经是产生有害响应的强大基线，我们的工作应该被视为使用安全对齐模型来进一步增强这些预训练模型的有害性。这种方法超越了仅仅破解对齐模型的安全护栏。
在这里插入图片描述
图 2：模拟错位（ED）的说明，其中 x、y 分别表示用户查询和语言模型响应；πbase 表示预训练模型（例如，Llama-2），πalign 表示其安全对齐版本（例如，Llama-2-chat）；α 是一个正超参数。

(a) ED模拟的内容（上）：由于 log πalign(y|x) − log πbase(y|x) 定义了一个安全奖励函数，惩罚有害响应，通过 KL 约束对抗性训练语言模型以最小化这一奖励，会产生有害的语言模型 πdisalign。
在这里插入图片描述

(b) ED实际所做的（下）：ED 不依赖于资源密集型的训练，而是通过从由 πbase 和 πalign 定义的对比分布中采样，模拟这种对抗性微调（即错位）的结果。

**通过微调增加LLM的有害性。**这项工作还与最近发现有关，即通过最小化微调，LLM 的安全性可能会降低（Qi 等人，2023；Zhao 等人，2024）。然而，我们的方法不涉及实际的微调或需要访问模型权重；相反，我们通过采样模拟微调（Mitchell 等人，2023；Liu 等人，2024），只需要访问语言模型输出的标记分布。与我们的工作同时，Zhao 等人（2024）提出了一种类似的方法，通过结合不同语言模型的输出分布来产生有害的语言模型。与他们需要明确微调以训练一个较小的不安全模型的方法不同，我们的方法完全无需训练，重用现成的语言模型来产生有害的语言模型，无需额外的训练。

以下是GPt对图2的解释：

在这里插入图片描述

3 模拟微调（EFT）的预备知识

模拟错位建立在模拟微调（EFT）的基础上（Mitchell 等人，2023），它将语言模型 πalign 的对齐视为一个 KL 约束的奖励最大化问题：
在这里插入图片描述
其中(p)是查询(x)的分布，(y)是语言模型对查询(x)的响应，(r_{\text{align}})是一个奖励函数，引导语言模型与人类意图对齐，(D_{KL}(\pi(y|x) | \pi_{\text{base}}(y|x)))是预训练语言模型(\pi_{\text{base}})的KL散度。传统上，有一个超参数(\beta)控制KL约束的强度，但在本文中，我们不显式写出(\beta)，因为它总是可以通过将其与(\beta^{-1})缩放并入奖励中。先前的研究显示了(\pi_{\text{base}})，(\pi_{\text{align}})和(r_{\text{align}})之间的映射关系（Rafailov等人，2024）：
在这里插入图片描述

其中 ( Z(x) = \sum_{y} \pi_{\text{base}}(y|x) \exp(r_{\text{align}}(x, y)) ) 是划分函数。这种映射不仅表达了语言模型和奖励函数之间的对偶性，而且具有重要的实际意义：方程 3 使得“逆向工程”生产语言模型的专有奖励函数成为可能，假设可以访问语言模型输出的标记分布。例如，Mitchell 等人（2023）使用 ( \log \pi_{\text{Llama-2-7b-chat}}(y|x) - \log \pi_{\text{Llama-2-7b}}(y|x) )（Touvron 等人，2023b）作为闭源奖励函数的代理，以指导一个更大的基础模型的解码，从而模拟一个更大的对齐模型。

以下是GPT对公式1，2，3的解释：

在这里插入图片描述

4 模拟错位（ED）

给定从（(\pi_{\text{align}}, \pi_{\text{base}})）对中逆向工程得到的奖励函数 ( r_{\text{align}}(x, y) = \log \pi_{\text{align}}(y|x) - \log \pi_{\text{base}}(y|x) )（公式3），模拟错位（ED）展示了这个奖励函数可以被利用来创建一个有害的语言模型，特别是当 (\pi_{\text{align}}) 是安全对齐的时候。
具体来说，ED将以下三个洞见整合到一个无需训练的攻击方法中：(1) 如果 (\pi_{\text{align}}) 是安全对齐的，逆向工程得到的奖励函数 (r_{\text{align}}) 是一个安全奖励函数，惩罚有害的响应；(2) 对预训练的语言模型 (\pi_{\text{base}}) 进行对抗性微调以最小化 (r_{\text{align}}) 会导致产生有害的语言模型；(3) 关键的是，这种对抗性微调的结果可以通过纯采样有效模拟，消除了额外训练的需要。

4.1 推导ED采样分布

在这里，我们详细说明上述提到的三个洞见，并推导出ED采样分布。
(1) 从预训练和安全对齐的语言模型对中逆向工程一个安全奖励函数。从理论上讲，奖励函数和语言模型之间的对偶性（公式3）表明，逆向工程得到的奖励函数 (r_{\text{align}}) 应该反映用于获得安全对齐模型的微调原则（(\pi_{\text{base}} \rightarrow \pi_{\text{align}})）。鉴于安全对齐旨在减少对有害查询的响应的有害性，并增加对安全查询的响应的有用性（Bai 等人，2022；Touvron 等人，2023b），(r_{\text{align}}) 应该是一个安全奖励函数，对有害查询的有害响应进行惩罚，并对安全查询的有用响应进行鼓励。我们专注于前者，考察这个奖励如何支持对抗性目的。
在这里插入图片描述

图 3：来自HH（“无害基础”）数据集（Bai 等人，2022）的相同有害查询 ( x ) 对不同类型响应 ( y ) 的逆向工程奖励函数 ( r_{\text{align}}(x, y) = \log \pi_{\text{align}}(y|x) - \log \pi_{\text{base}}(y|x) ) 的分布（底部15%）。对于每个查询，安全表示对此查询的首选响应，有害表示对此查询的非首选响应，而有害但无关表示对随机查询的非首选响应。这些图表表明，逆向工程得到的 ( r_{\text{align}} ) 鼓励安全响应并惩罚有害响应。

从经验上，我们通过分析对相同有害查询的不同类型响应上的分布来验证 ( r_{\text{align}} ) 是一个安全奖励。图 3 显示了从不同模型家族（模型规格在第5节）逆向工程得到的 ( r_{\text{align}} ) 一致地为安全响应分配更高的奖励，并对有害响应分配更低的奖励。

(2) 错位：最小化这个安全奖励会导致有害的语言模型。鉴于 ( r_{\text{align}} ) 是一个针对有害查询的有害响应进行惩罚的安全奖励函数，下一步是创建一个支持有害查询的有害语言模型，那就是最小化 ( r_{\text{align}} )（与公式1中的最大化相反；注意下面的负号）：

在这里插入图片描述

[ \pi_{\text{disalign}} = \arg\min_{\pi} \mathbb{E}{x \sim p(x), y \sim \pi(y|x)} \left[ -r{\text{align}}(x, y) - \alpha D_{KL}(\pi(y|x) ,|, \pi_{\text{base}}(y|x)) \right] ]

其中 ( \alpha > 0 ) 是一个正超参数，控制最小化奖励和KL约束之间的权衡。我们将这个奖励最小化问题定义为错位，因为它将语言模型引导到与对齐完全相反的方向。通常，解决公式4需要资源密集型的训练（例如，强化学习）。然而，我们将展示这个优化的结果可以高效地模拟，无需额外训练，从而产生一个高风险的对抗性攻击框架。

(3) 通过纯采样模拟错位。要从公式4获得有害语言模型 ( \pi_{\text{disalign}} )，而不是直接使用强化学习进行优化，结合公式2和公式3可以使错位的结果以封闭形式表达，无需训练：
在这里插入图片描述

这些推导是精确的，但是这种序列级分布与现代生成型大型语言模型的自回归特性不兼容。为了解决这个问题，我们采用了EFT（Mitchell等人，2023）中的每个标记的近似技巧，从以下自回归分布中采样来近似 ( \pi_{\text{disalign}} )：
在这里插入图片描述

[ \pi_{\text{disalign}}(y_t | y_{<t}) = \frac{\pi_{\text{base}}(y_t | y_{<t}) \exp(-\alpha r_{\text{align}}(y_{<t}, y_t))}{Z_{\text{disalign}}(y_{<t})} ]

其中 ( y_{<t} ) 表示直到第 ( (t-1) ) 个标记的所有响应标记。尽管这种每个标记对序列级分布的近似有一个松散的有界遗憾（Haarnoja等人，2018），但它有效地绕过了繁琐的微调过程，并展示了强大的实证性能（更多细节在第5节、6节中介绍）。

ED：整合所有内容。本质上，公式6是我们逆转安全对齐所需要的一切：ED的核心是一个简单的采样分布，它结合了安全对齐和预训练语言模型的输出标记分布，我们在奖励最小化的框架内为此进行了辩护。我们称这种方法为模拟错位（ED），因为它在没有额外训练的情况下模拟了错位的结果（公式4），我们称产生的采样分布（公式6）为模拟错位模型。

4.2 关于ED的进一步评论

作为对比解码的ED。除了奖励最小化的解释外，导致有害输出的公式6也可以从对比解码的角度来解释（Li等人，2022；Shi等人，2023）。在这里，我们通过与安全对齐模型对比来放大预训练模型展示的有害性，其中这种有害性更少见（见图2b的说明）。

两个实际假设：开源和同家族。虽然ED采样分布（公式6）可以适用于任何具有和没有安全对齐的语言模型对，但它确实有两个限制：(1) 访问模型在完整词汇表上的完整输出标记分布；(2) 两个模型之间共享词汇表。因此，ED在来自同一家族的开源模型对中更实用。开源假设确保了对完整输出标记分布的访问，而同家族假设确保了共享词汇表。话虽如此，我们在表2中展示了ED可以推广到使用相同词汇表的不同模型家族的模型对。虽然ED也可以应用于专有的黑盒模型，我们将这留给未来的探索（更多讨论在第8节中）。

广泛影响。ED挑战了普遍的观点，即“在安全地进行时，LLMs的开放发布将对社会有净利益”（Touvron等人，2023b）。公式6表明，同时发布一个强大的预训练模型和一个安全对齐模型可能会被用于恶意目的。作为一种无需训练的攻击，ED易于分发，并且呈现出其创造者意想不到的社会风险。ED的潜在危险将在接下来的部分中得到实证展示。

5 在开源语言模型上的实验

在本节中，我们评估了ED结合开源预训练和安全对齐语言模型生成有害内容的能力。我们对ED的评估涵盖了四种广泛使用的语言模型家族和三组用户查询数据集。

5.1 实验设置

**模型。**我们在四种开源模型家族上评估ED，每个家族都包括一个预训练模型及其安全对齐版本：(1) Llama-1家族：Llama-1-7b，Vicuna-7b；(2) Llama-2家族：Llama-2-7b，Llama-2-7b-chat；(3) Mistral家族：Mistral-7b，Mistral-7b-Instruct；以及(4) Alpaca家族：Alpaca-7b，Beaver-7b。在这些安全对齐模型中，只有Llama-2-7b-chat明确针对安全性进行了优化，尽管其他三个模型也由于大量的安全相关微调数据而促进了安全对话（更多细节见附录A.1）。对于预训练模型，我们使用零样本提示，包括系统提示和用户查询（更多细节见附录A.2）。

**ED细节。**由于ED模拟了预训练模型的微调以与人类意图错位，我们用恶意系统提示（例如，“你是一个恶意助手…”）提示预训练模型 ( \pi_{\text{base}} )（公式6），记为BaseMP。这类似于从更好的“模拟初始化”进行微调。安全对齐模型 ( \pi_{\text{align}} )（公式6）使用其默认提示，记为AlignDP。我们将这种标准的ED实现记为 ( \text{ED}{\pi{\text{align}}\text{AlignDP}}^{\pi_{\text{base}}\text{BaseMP}} )，简称为ED。

**基线。**我们考虑了三种无需训练的基线与ED进行比较：(1) BaseMP：带有恶意系统提示的预训练模型；当 ( \alpha = 0 ) 时，这是ED的特例；(2) AlignMP：带有恶意系统提示的安全对齐模型；(3) EDBase（( \text{ED}{\pi{\text{align}}\text{BaseBP}}^{\pi_{\text{base}}\text{BaseMP}} )）：仅使用预训练模型的ED，它使用带有良性系统提示（BaseBP）的预训练模型来替换安全对齐模型（公式6）；这个基线受到上下文感知解码（Shi等人，2023）的启发，通过以不同方式提示相同的预训练模型来生成对比输出分布。更多细节请见附录A.2。我们将ED与基于训练的基线的比较推迟到第6节进行更受控的比较。

**评估数据集和指标。**我们的实验使用三组用户查询数据集来评估语言模型响应的有害性：Anthropic Helpful-Harmless（Anthropic-HH）（Bai等人，2022），ToxicChat（Lin等人，2023b），以及OpenAI Moderation Eval Set（OpenAIModerationEval）（Markov等人，2023）。对于每个数据集，我们根据它们的二元有害标签将查询分为两个子集：安全（S）和有害（H）。我们为每个子集随机选择200个查询。我们通过语言模型对这些查询的响应的平均有害率（%）来评估它们的有害性，这是在五个随机采样种子上的平均值。我们使用两个评估工具来检测有害响应：OpenAI-Moderation（OM）（Markov等人，2023）和Llama-Guard（LG）（Inan等人，2023）。这两个评估工具不仅在安全指南上有所不同，而且在方法上也有所不同：OpenAI-Moderation在不考虑查询的情况下评估响应，而Llama-Guard在查询的上下文中评估响应的适当性。基于查询评估响应有助于避免自动将固定和无关的回复标记为有害。

在这里插入图片描述

表 1：语言模型响应的有害率（%）。我们展示了五个随机种子的平均有害率。OM 和 LG 分别代表 OpenAI-Moderation 和 Llama-Guard 评估。我们在不同数据集上为每个模型家族使用固定的 α 值（更多细节见附录 A.2）。

5.2 实验结果

ED 有效地生成有害响应。表 1 显示 ED 有效地生成有害响应，在 48 个评估子集中的 43 个中实现了最高的有害率。表 1 中有三个方面的关键见解值得强调：(1) ED 相对于 EDBase 的改进表明，安全对齐模型对 ED 在不同模型大小上的表现至关重要。尽管这项研究主要关注 7B 模型，但额外的实验证实 ED 在不同模型大小上表现一致，从 7B 到 70B。详细结果见附录 A.4。附录 A.3 进一步表明，用高质量的安全问答示例增强 EDBase 并不能缩小这种性能差距。(2) 从理论上讲，"最小化偏好奖励会导致有害响应"的论点仅适用于有害查询，因为在安全和寻求帮助的查询上最小化奖励主要会降低有用性（第 4 节）。然而，在实践中，当来自 ED 采样分布的预训练模型（( \pi_{\text{base}} )）被提示以恶意系统提示时，ED 倾向于即使在对安全查询 ( x_{\text{safe}} ) 的响应中，最初也会产生一些有害标记（( y_{<t,\text{harmful}} )）。然后模型的输入变为 [ ( x_{\text{safe}} ), ( y_{<t,\text{harmful}} ) ] 的组合，有效地将其转变为有害查询。这解释了为什么 ED 也增加了对安全查询的响应有害性，这一发现在表 1 的结果中得到了一致的支持。对安全和有害查询的样本响应提供在附录 A.5 中。(3) 此外，我们没有对 ED 的 α 值进行有意义的调整以获得表 1 中的结果，这可能低估了 ED 的性能。请参阅附录 A.2 了解超参数的详细信息。

**α 超参数如何影响有害性。**为了更好地理解 α 对模拟错位模型有害性的影响，我们对每次运行使用不同的 α 执行多次采样。图 4 显示了不同模型家族、数据集和评估工具中有害率与 α 之间的关系。我们发现：(1) 增加 α 通常会导致有害率最初增加，然后减少。这类似于直接微调中常见的奖励过度优化问题（Gao 等人，2023）。我们在附录 A.5 中展示了一些这种“模拟奖励过度优化”的失败案例。(2) 此外，尽管两种评估工具在评估个别案例时可能不一致，但它们都表明了关于 α 如何影响有害性的类似高层次趋势。这种一致性表明观察到的 α 趋势可能具有广泛的普适性。

高级提示进一步提高 ED。
由于 α = 0 将 ED 降低为预训练模型基线 BaseMP，所有高级提示技术都可能提高 ED。虽然我们之前在实验中专注于简单的零样本提示（系统提示），但附录 A.3 验证了少样本提示（1 次和 5 次高质量有害 QA 示例）可以进一步提高 ED 响应的有害性。

使用 ED 攻击跨家族模型对。
由于 Llama-1、Llama-2 和 Alpaca 家族共享相同的 Llama-1 词汇表，我们可以测试 ED 在不同家族的模型对上。表 2 显示，来自不同家族的模型也可以被 ED 成功攻击，尽管同一家族内的攻击通常更有效。

在这里插入图片描述

图 4：不同 α 下 ED 的有害率（%）。我们展示了五个随机种子的平均有害率（± 一个标准差）。响应的有害率是对安全和有害查询的平均值。提高 α 增加了有害性，但可能导致“模拟奖励过度优化”，从而使有害性降级。
在这里插入图片描述

表 2：α = 0.6 下不同模型对 ED 的有害率（%）。有害率是对所有评估数据集中安全和有害查询的平均值，括号内显示了 OM 和 LG 的结果。

6 模拟错位与直接错位

虽然前一节展示了 ED 在利用开源语言模型方面的实际意义，但本节旨在通过合成实验更深入地理解 ED。我们解答两个问题：（1）经过模拟错位后，更安全的模型是否变得更有害？（2）模拟错位与直接错位相比如何？

为了回答这些问题，我们需要获得具有不同安全级别的多种模型。我们使用了 Anthropic Helpful-Harmless (HH) 偏好数据集（Bai 等人，2022），它建立了一个真实偏好奖励函数 ( r^{\text{HH}} )（Rafailov 等人，2024），鼓励对有害查询做出安全响应。首先，我们通过对 HH 进行监督微调（Ouyang 等人，2022）获得基础模型 ( \pi{\text{base}} )。其次，我们通过调整 ( \beta^{-1} \in B = {1/8, 1/4, 1/2, 1, 2, 4, 8} ) 优化三组模型与 ( r = \beta^{-1} r^_{\text{HH}} )：

我们在 B 中扫描 ( \beta^{-1} ) 来训练一系列具有不同安全级别的安全对齐模型 S = ( {\pi_{\text{align}} | \beta^{-1} \in B} )（公式 1）；
我们在 B 中扫描 ( -\beta^{-1} ) 来训练一系列具有不同有害级别的直接错位模型 D = ( {\pi_{\text{disalign}} | -\beta^{-1} \in B} )（公式 1）；
（无需训练）我们将 α ∈ A = {1/4, 1/2, 1, 2, 4} 应用于 S 中的每个安全对齐模型（每个模型都使用不同的 β 训练）以获得一系列模拟错位模型 ED = ( {\pi_{\text{emulated-disalign}} | \pi_{\text{align}} \in S, \alpha \in A, \pi_{\text{base}}} )（公式 6）。

然后，我们使用训练好的偏好奖励模型 ( r_{\text{HH},\theta} ) 在“无害基础”查询子集上评估这些语言模型，以衡量响应的安全性。DPO（Rafailov 等人，2024）被用作对齐算法来获得 S 和 D。关于实验设置和模型训练的更多细节在附录 B.1 中。

图 5 展示了汇总的实验结果，说明了 S、D 和 ED 的安全得分如何随着 ( \beta^{-1} ) 的变化而变化。首先，在未阴影区域内（较小的 ( \beta^{-1} )）我们进行了两个观察：
(1) 安全对齐模型越安全，模拟错位模型就越有害。随着 ( \beta^{-1} ) 的增加，安全对齐模型变得更安全，但这也增加了它们在模拟错位后生成有害内容的风险。这种适得其反的效应可以通过单个推理时超参数 α > 1 放大，这进一步增加了与 KL 约束相比的错位系数的权重。这支持了最初的直觉，即更强的对齐导致更大的潜在伤害风险。
(2) 模拟错位意外地优于资源密集型的直接错位。在第 4 节中，我们提到模拟错位仅近似于直接错位。因此，模拟错位不如直接错位有效并不会出乎意料。然而，与预期相反，图 5 揭示了实际上模拟错位产生的响应比直接错位更有害，即使 α = 1。鉴于直接错位的资源密集性质，这是值得注意的（有关直接错位的训练计算，请参见附录 B.1）。模拟错位模型响应和直接错位模型响应对相同查询的定性比较在附录 B.2 中。

然而，这些发现并不意味着模拟错位总是比直接错位更好。在大的 ( \beta^{-1} ) 下，当安全对齐模型最安全时，模拟错位的表现远远落后于直接错位，并且 α > 1 使这种性能下降更加明显。我们怀疑这是因为充分优化有害性需要复杂的序列级适应，而无需训练的标记级近似是次优的。附录 B.2 展示了在 ( \beta^{-1} = 8 ) 观察到的失败案例，其中模拟错位模型倾向于产生简短的响应，限制了它们的有害潜力。

总结来说，这些合成实验表明，模拟错位可以与资源密集型的直接错位相竞争，并且使模型更安全通常会增加它们在对抗性操纵下的滥用风险。然而，当安全对齐模型充分优化以确保安全时，ED 通常需要较小的 α 才能有效（例如，如图 5 所示的 1/4）。这与我们在开源模型上的实验一致，我们通常使用 α ≪ 1 来获得良好的实证结果（第 5 节）。

在这里插入图片描述

图 5：S（安全对齐）、D（直接错位）和 ED（模拟错位）的安全得分与 β^-1 的对比。我们展示了五次采样运行的平均安全得分（±三个标准差）。除了在非常大的 β^-1（灰色阴影）外，ED 往往会使更安全的模型变得更有害，并胜过直接错位。

7 结论

本研究介绍了模拟错位（ED），这是一种在推理时的攻击方法，通过对比安全对齐语言模型与其预训练版本的输出标记分布来逆转安全对齐，有效地在无需额外训练的情况下产生有害的语言模型。
安全对齐可能在简单的对抗性操纵下无意中促进有害性的发现，应促使社区重新考虑即使经过安全对齐的语言模型的开放可访问性。

8 局限性与未来工作

我们的结果也提出了几个超出本研究范围的问题：(1) ED 是否可以转移到黑盒大型语言模型（LLMs）？一些黑盒大型语言模型（例如，GPT-4）确实允许有限地了解其输出标记分布，例如显示前五个标记的对数似然。我们想知道这种有限的透明度是否足以抵消使这些模型安全的努力。(2) ED 能否用于攻击具有不同词汇表的模型对？虽然标准的 ED 可能不能直接工作，但像跨词汇表测试时搜索这样的技术可能有所帮助（Zhou 等人，2024）。(3) 如何防御 ED？对于开源模型，这可能涉及在训练期间设计更稳健的对齐算法。对于闭源模型，挑战在于平衡输出标记分布的透明度与滥用风险。此外，ED 不仅是一种风险；它可以是一个有价值的数据增强工具，生成合成有害数据以帮助安全对齐。ED 也适用于攻击语言模型之外的领域，包括攻击安全对齐的视觉语言模型、文本到图像的扩散模型以及其他生成性模型。

全文总结

这篇论文介绍了一种名为“模拟错位”（Emulated Disalignment，简称ED）的攻击方法，专门针对大型语言模型（Large Language Models，简称LLMs）。这些模型通常用于聊天助手等应用，并经过安全对齐（safety alignment）的训练，以确保它们与人类的对话是安全和有帮助的。然而，论文指出，即使是经过安全对齐的模型，也可能被恶意利用来生成有害内容。

以下是论文的详细通俗总结：

问题识别：大型语言模型（LLMs）在设计时需要确保它们对用户输入的响应是安全的。但是，研究发现，即使是经过安全对齐的模型，也可能在对抗性攻击下产生有害的输出。
模拟错位（ED）：论文提出了一种无需额外训练的攻击技术，称为模拟错位。这种方法通过比较安全对齐模型和其预训练版本的输出标记分布，来逆转安全对齐的效果。
实验验证：研究人员在多个数据集和四种不同的模型家族上进行了实验，结果表明，ED能够显著提高模型产生有害内容的能力，甚至在某些情况下，比直接对模型进行有害内容训练还要有效。
α超参数的影响：论文探讨了ED中的一个关键超参数α，它控制着在生成有害内容时对安全对齐的偏离程度。研究发现，适当调整α值可以最大化ED的效果。
对比直接错位：论文还比较了模拟错位与传统的直接错位（通过训练改变模型以产生有害内容）的效果。结果显示，在某些情况下，模拟错位甚至可以超越直接错位，尤其是在资源有限的情况下。
防御策略：论文讨论了如何防御ED攻击，包括改进训练期间的对齐算法和平衡模型透明度与滥用风险。
局限性与未来工作：论文指出了研究的局限性，并提出了未来研究的方向，例如ED是否适用于黑盒模型、不同词汇表的模型对，以及如何利用ED作为数据增强工具等。
社会影响：论文最后强调了ED对社会的潜在影响，提示社区需要重新考虑即使是经过安全对齐的模型的开放可访问性。