论文翻译 - AutoDAN Generating Stealthy Jailbreak Prompts on Aligned Large Language Models

最新推荐文章于 2025-05-02 23:18:46 发布

anniewwy

最新推荐文章于 2025-05-02 23:18:46 发布

阅读量2.1k

点赞数 25

分类专栏：论文翻译文章标签： LLM

本文链接：https://blog.csdn.net/anniewwy/article/details/137028800

版权

论文翻译专栏收录该内容

21 篇文章

订阅专栏

本文介绍了AutoDAN，一种针对对齐LLM的新型越狱攻击方法。它通过分层遗传算法自动生成隐蔽的越狱提示，解决了现有越狱技术的可扩展性和隐蔽性问题。评估表明，AutoDAN在跨模型可迁移性、跨样本通用性方面表现优越，能有效绕过基于困惑度的防御。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文链接：https://arxiv.org/pdf/2310.04451.pdf
项目代码：https://github.com/SheltonLiu-N/AutoDAN

AutoDAN Generating Stealthy Jailbreak Prompts on Aligned Large Language Models

Abstract
1 Introduction
2 Background and Related Works
3 Method
4 Evaluations
- 4.1 Experimental Setups
- 4.2 Results
5 Limitation and Conclusion

Abstract

对齐的大型语言模型 (LLMs) 是强大的语言理解和决策工具，它们通过与广泛的人类反馈的对齐来创建。然而，这些大型模型仍然容易受到越狱攻击的影响，其中对手操纵提示来引出不应该由对齐的 LLMs 给出的恶意输出。研究越狱提示可以让我们深入研究 LLMs 的局限性，并进一步指导我们增强它们的安全性。不幸的是，现有的越狱技术要么存在 (1) 可扩展性问题，其中攻击严重依赖手动制作提示，要么 (2) 隐蔽性问题，因为攻击依赖于 token-based 的算法来生成通常无语义意义的提示，这使得它们容易通过基本困惑度测试来检测出来。鉴于这些挑战，我们打算回答这个问题：我们能否开发一种方法，可以自动地生成隐蔽的越狱提示？在本文中，我们介绍了 AutoDAN，这是一种针对对齐 LLM 的新型越狱攻击。AutoDAN 通过精心设计的分层遗传算法自动地生成隐蔽的越狱提示。广泛的评估表明，AutoDAN 不仅在保持语义意义的同时自动化了该过程，而且和基线方法相比，在跨模型可迁移性，跨样本通用性方面表现出优越的攻击强度。此外，我们还将 AutoDAN 与基于困惑度的防御方法进行了比较，并表明 AutoDAN 可以有效地绕过它们。代码可在 https://github.com/SheltonLiu-N/AutoDAN 获得。

1 Introduction

由于对齐的大型语言模型 (LLMs) 已被广泛用于支持专业和社会领域的决策(Araci, 2019; Luo et al., 2022; Tinn et al., 2023)，因此它们配备了安全特征，以防止它们对用户查询产生有害或令人反感的响应。在这种情况下，提出了红队 LLMs 的概念，旨在评估其安全特征的可靠性(Perez et al., 2022; Zhuo et al., 2023)。因此，已经发现了越狱攻击：将越狱提示与恶意问题(例如，如何窃取某人的身份)相结合可能会误导对齐的 LLMs 来绕过其安全特征，从而产生构成了有害、歧视性、暴力或敏感内容的响应(Goldstein et al., 2023; Kang et al., 2023; Hazell, 2023)。

为了促进红队过程，不同的越狱攻击已经被提出。我们可以将它们分为两类：1）手动编写的越狱攻击(walkerspider, 2022; Wei et al., 2023; Kang et al., 2023; Yuan et al., 2023) 和 2）基于学习的越狱攻击(Zou et al., 2023; Lapid et al., 2023)。第一个类别的代表性工作是“Do-Anything-Now (DAN)”系列（walkerspider，2022），它利用手动方式制作的提示来破坏由对齐 LLM 驱动的在线聊天机器人。第二类代表性工作是 GCG 攻击 (Zou et al., 2023)。GCG 不依赖于手动制作，而是将越狱攻击重新表述为对抗性示例生成过程，并利用白盒 LLMs 的梯度信息来指导越狱提示标记的搜索过程，在可迁移性和普遍性方面证明了有效性。

然而，现有的越狱方法有两个局限性: 首先，像 GCG Zou et al. (2023) 这样的自动攻击不可避免地需要一个由 token 梯度信息引导的搜索方案。虽然它提供了一种自动生成越狱提示的方法，但这导致了一个内在的缺点：它们通常生成由无意义的序列或乱码组成的越狱提示，即没有任何语义含义（Morris et al., 2020）。这种严重的缺陷使它们非常容易受到基于困惑的检测等基础的防御机制的影响。正如最近的研究 (Jain et al., 2023; Alon & Kamfonas, 2023) 所证演示的，这种直接的防御可以轻松识别这些无意义的提示，并完全破坏 GCG 攻击的攻击成功率。其次，尽管手动攻击可以发现一些隐蔽性的越狱提示，但越狱提示通常是由单个 LLM 用户手工制作的，因此面临着可扩展性和适应性挑战。此外，这种方法可能无法快速适应更新的 LLMs，随着时间的推移它们的有效性会降低(Albert, 2023;Oneal, 2023)。因此，出现了一个自然的问题：“是否有可能自动地生成隐蔽的监狱攻击？”

在本文中，我们计划对现有的越狱攻击的发现取其精华去其糟粕。我们的目标是提出一种方法，保留越狱提示的意义和流畅性(即隐蔽性)，类似于手工制作的提示，同时也确保了自动地部署，就像在先前的 token-level 的研究中引入的方法那样。因此，这些特征确保我们的方法可以绕过困惑度检测等防御，同时保持了可扩展性和适应性。为了开发这种方法，我们提供了两个主要见解：（1）为了生成隐蔽的 jailbreak 提示，更建议应用遗传算法等优化算法。这是因为 jailbreak 提示中的单词与损失函数中的梯度信息没有直接相关性，这使得使用在连续空间的类反向传播的对抗样本，或者利用梯度信息来指导生成是具有挑战性的。(2) 现有的 LLMs 用户发现的手工越狱提示可以有效地用作初始化遗传算法种群的原型，大大减少了搜索空间。这使得遗传算法在有限迭代期间在离散空间中找到合适的越狱提示是可行的。

基于上述见解，我们提出了 AutoDAN，这是一种专门为提示文本等结构化的离散数据量身定制的分层遗传算法。AutoDAN 的名称意味着“自动生成类似 DAN 系列的 jailbreak 提示”。通过从分层的角度处理句子，我们为句子和单词引入了不同的交叉策略。这确保了 AutoDAN 可以避免陷入局部最优，并在由手工制作的 jailbreak 提示初始化的细粒度搜索空间中一致地搜索全局最优解。具体来说，除了基于一个轮盘选择策略的多点交叉策略外，我们引入了一种动量词评分方案，该方案在保持文本数据的离散和语义有意义的同时，增强了细粒度空间中的搜索能力。总结来看，我们的主要贡献是：(1). 我们介绍了 AutoDAN，这是一种针对 LLMs 的新型高效和隐蔽的 jailbreak 攻击。我们将隐蔽的越狱攻击概念化为一个优化过程，提出了基于遗传算法的方法来求解优化过程。(2). 为了解决在用手工提示初始化的细粒度空间中搜索的挑战，我们提出了为结构化离散数据量身定制的专门函数，确保优化过程中的收敛和多样性。(3). 在综合评价下，AutoDAN在开源和商业 LLMs 中都表现出了出色的性能，在可迁移性和普适性方面表现出了显著的有效性。AutoDAN 在抵抗困惑度防御方面比基线高出 60% 的攻击强度。

2 Background and Related Works

Human-Aligned LLMs. 尽管 LLMs 在广泛的任务(OpenAI, 2023b)上取得了令人印象深刻的能力，但这些模型有时会产生偏离人类期望的输出，导致研究努力将 LLMs 与人类值和期望更紧密地对齐(Ganguli et al., 2022; Touvron et al., 2023)。人工对齐的过程包括收集反映人类价值的高质量训练数据，并基于它们进一步重塑 LLMs 的行为。人工对齐的数据可以来自人工生成的指令(Ganguli et al., 2022; Ethayarajh et al., 2022)，或者甚至从其他强 LLMs（Havrilla, 2023）合成。例如，PromptSource (Bach et al., 2022) 和 SuperNaturalInstruction (Wang et al., 2022b) 等方法将以前的 NLP 基准改编为自然语言指令，而自指令 (Wang et al., 2022a) 方法利用 ChatGPT 等模型的上下文学习能力来生成新指令。对齐训练方法也从监督微调 (SFT) (Wu et al., 2021) 发展到从人类反馈 (RLHF) 强化学习 (Ouyang et al., 2022; Touvron et al., 2023)。虽然人类对齐方法显示出良好的有效性，并为 LLMs 的实际部署铺平了道路，但最近对越狱攻击的发现表明，在某些情况下，对齐的 LLMs 仍然可以提供不希望的响应 (Kang et al., 2023; Hazell, 2023) 。

Jailbreak Attacks against LLMs. 虽然建立在对齐 LLMs上的应用程序一年内吸引了数十亿个用户，但一些用户意识到，通过“微妙地”措辞他们的提示，对齐的 LLMs 仍然会回答恶意问题而不是拒绝，这标志着对 LLMs 的初始的越狱攻击 (Christian, 2023; Burgess, 2023; Albert, 2023)。在一个 DAN 越狱攻击中，用户要求 LLM 扮演一个可以绕过任何限制并响应任何类型的内容的角色，即使那是被认为是攻击性或贬义的内容（walkerspider，2022）。关于越狱攻击的文献主要围绕数据收集和分析展开。例如，Liu et al. (2023) 首先收集和分类了现有的手工越狱提示，然后对 ChatGPT 进行了实证研究。Wei et al. (2023) 将现有的越狱攻击，例如前缀注入和拒绝抑制，归因于能力和安全性目标之间的竞争。虽然这些研究提供了有趣的见解，但它们未能揭示监狱攻击的方法，从而限制更广泛的评估。最近，一些研究调查了监狱攻击的设计。Zou et al. (2023) 提出了 GCG，通过结合贪婪和基于梯度的搜索技术自动生成对抗性后缀。同时还有工作研究了通过手工制作的多步提示（Li et al., 2023），从 LLM 生成 jailbreak 提示的潜力（Deng et al., 2023），以及令牌级 jailbreak 在黑盒场景中的有效性（Lapid et al., 2023）。我们的方法与他们不同，因为我们专注于在没有任何模型训练过程的情况下自动生成隐蔽的 jailbreak 提示。

用手工制作的提示来初始化，并通过一种新的分层遗传算法进化，我们的 AutoDAN 可以通过复杂的算法设计弥合更广泛的在线社区的发现。我们相信 AutoDAN 不仅为学术界提供了一种分析方法来评估 LLM 的鲁棒性，而且还为整个社区提供了一个有价值和有趣的工具。

3 Method

3.1 Preliminaries

Threat model. 越狱攻击与 LLMs 的对齐方法密切相关。这种类型的攻击的主要目标是破坏模型开发人员施加的 LLM 的人工对齐值或其他约束，迫使它们用正确答案响应敌手的恶意问题，而不是拒绝回答。考虑一组表示为 $Q = \{Q_{1}, Q_{2},..., Q_{n} \}$ 的恶意问题。敌手详细阐述了这些问题，用越狱提示 $J=\{J_{1},J_{2},...,J_{n}\}$ ，最后得到一个组合的输入集 $T=\{T_{i}=<J_{i},Q_{i}>\}_{i=1,2,...,n}$ 。当输入集 $T$ 呈现给受害者 LLM $M$ 时，该模型生成一组响应 $R = \{R_{1}, R_{2}, ... , R_{n}\}$ 。越狱攻击的目标是确保 $R$ 中的响应主要是与 $Q$ 中的恶意问题密切相关的答案，而不是与人类价值观对齐的拒绝消息。

Formulation. 直观地说，为响应单个恶意问题设置特定的目标是不切实际的，因为为一个给定的恶意查询确定一个适当的答案是具有挑战性的，并可能损害对其他问题的普遍性。因此，一个常见的解决方案（Zou et al., 2023; Lapsid et al., 2023）是将目标响应指定为肯定的，例如以“Sure, here is how to [ $Q_{i}$ ]” 为开头的答案。通过将目标响应锚定到具有一致开头的文本上，用条件概率表示用于优化的攻击损失函数是可行的。

在这种情况下，给定一个标记序列 $x_{1},x_{2},...,x_{m}>$ ，LLM 估计下一个标记 $x_{m+1}$ 在词汇表上的概率分布为：

$x_{m+j}\sim P(\cdot|x_{1},x_{2},...,x_{m+j-1}), \text{ for } j=1,2,...,k$

越狱攻击的目标是提示模型以产生以特定单词开头的输出（比如，“Sure, here is how to [ $Q_{i}$ ]”），也就是标记 $r_{m+1}, r_{m+2},...,r_{m+k}>$ 。给出输入 $T_{i}=<J_{i},Q_{i}>$ ，它的标记是 $t_{1},t_{2},...,t_{m}>$ ，我们的目标是优化越狱提示 $J_{i}$ 来影响输入的标记，从而最大化概率：

$P(r_{m+1}, r_{m+2},...,r_{m+k}|t_{1},t_{2},...,t_{m})=\prod_{j=1}^{k} P(r_{m+j}|t_{1},t_{2},...,t_{m},r_{m+1},...,r_{m+j})$

Genetic algorithms. 遗传算法(GAs)是一类受自然选择过程启发的进化算法。这些算法作为模拟自然演化过程的优化和搜索技术。GA 从候选解决方案的初始种群开始（即种群初始化）。基于适应度评估，该种群通过特定的遗传策略，例如交叉和突变，来演变。当满足终止标准时该算法结束，终止标准可能是达到指定的世代数或达到所需的适应度阈值。GA 可以抽象为算法 1：

在本节中，我们将在对应的小节中介绍我们对突出的关键组件的设计，即种群初始化（第 3.2 节）、适应度评估（第 3.3 节）、遗传策略（第 3.4 节）、终止标准（第 3.5 节）。

3.2 Population Initialization

初始化策略在遗传算法中起着至关重要的作用，因为它可以显著影响算法的收敛速度和最终解的质量。为了为 AutoDAN 设计有效的初始化策略，我们应该牢记两个关键考虑因素：1）原型手工制作的 jailbreak 提示已经在特定场景中展示了功效，使其成为有价值的基础；因此，必须不要偏离它太远。2）确保初始种群的多样性至关重要，因为它可以防止过早收敛到次优解并促进对解空间的更广泛探索。保留原型手工制作的越狱提示的基本特征也促进了多样性，我们使用 LLMs 作为负责修改原型提示的代理，如算法5所示。该方案背后的基本原理是，LLM提出的修改可以保留原始句子的固有逻辑流和含义，同时引入单词选择和句子结构的多样性。

3.3 Fitness Evaluation

由于 jailbreak 攻击的目标可以表述为等式 2，我们可以直接使用一个函数来计算这种似然，来评估遗传算法中个体的适应度。在这里，我们采用 Zou et al. (2023) 引入的对数似然作为损失函数，即给定一个特定的jailbreak提示 $J_{i}$ ，损失可以通过以下方式计算:

$\mathcal{L}_{J_{i}}=-log(P(r_{m+1},r_{m+2},...,r_{m+k}|t_{1},t_{2},...,t_{m}))$

为了与旨在找到适应度较高的个体的遗传算法的经典设置保持一致，我们将 $J_{i}$ 的适应度分数定义为 $S_{J_{i}}=-\mathcal{L}_{J_{i}}$ 。

3.4 Genetic Policies

3.4.1 AutoDAN-GA

基于初始化方案和适应度评价函数，我们可以进一步设计遗传策略进行优化。遗传策略的核心是设计交叉和变异函数。通过使用基本的多点交叉方案作为遗传策略，我们可以开发我们的第一个版本的遗传算法，即 AutoDAN-GA。我们在附录 C 中提供了 AutoDAN-GA 的详细实现，因为在这里，我们希望讨论如何通过使用其内在特征来制定更有效的策略来处理结构离散文本数据。

3.4.2 AutoDAN-HGA

文本数据的一个显著特点是其分层结构。具体来说，文本中的段落通常在句子之间表现出逻辑流，并且在每个句子中，单词选择决定了它的含义。因此，如果我们将算法限制为 jailbreak 提示的段落级交叉，我们基本上将我们的搜索限制在一个单一的分层级别，从而忽略广阔的搜索空间。为了利用文本数据的固有分层结构，我们的方法将 jailbreak 提示视为一个段落级种群的组合，即不同的句子的组合，而这些句子又由句子级种群组成，例如不同的单词。在每次搜索迭代中，我们首先探索句子级种群的空间，例如单词选择，然后将句子级种群集成到段落级种群中，并在段落级空间（例如句子组合）上开始搜索。这种方法产生了一个分层遗传算法，即 AutoDAN-HGA。如图2所示，AutoDAN-HGA在损失收敛方面优于AutoDAN-GA。AutoDAN-GA 似乎以恒定的损失分数停滞不前，这表明它陷入局部最小值，而 AutoDAN-HGA 继续探索破损提示并减少损失。

Paragraph-level: selection, crossover and mutation

给定由算法 5 初始化的种群，提出的AutoDAN将首先根据等式 3 评估种群中每个个体的适应度得分。适应度评估后，下一步是选择个体进行交叉和突变。假设我们有一个包含 $N$ 个提示的种群。给定一个精英率 $\alpha$ ，我们首先允许具有最高适应度分数的前 $\alpha$ 个提示直接继续下一次迭代，而无需任何修改，这确保了适应度分数始终下降。然后，为了确定下一次迭代所需的剩余 $N−N∗\alpha$ 个提示，我们首先使用一种选择方法来基于它的分数选择提示。具体来说，提示 $J_{i}$ 的选择概率是使用 softmax 确定的：

$P_{J_{i}}=\frac{e^{S_{J_{j}}}}{\sum_{j=1}^{N-N*\alpha}e^{S_{J_{j}}}}$

在选择过程之后，我们将有 $\alpha$ 个“父提示”准备好进行交叉和突变。然后，对于这些提示中的每一个，我们以概率 $p_{crossover}$ 使其与另一个父提示执行多点交叉。多点交叉方案可以概括为在多个断点之间交换两个提示的句子。随后，交叉后的提示将以概率 $p_{mutation}$ 进行突变。我们让算法 5 中引入的基于 LLM 的多样化过程也作为突变函数，因为它能够保留全局含义并引入多样性。我们在算法 7 中描述了上述过程。对于 $N−N∗\alpha$ 个被选择的数据，该函数返回 $N−N∗\alpha$ 个后代。将这些后代与我们保留的精英样本相结合，我们将总共得到 $N$ 个提示来进行下一次迭代。

Sentence-level: momentum word scoring

在句子级别，搜索空间主要围绕单词的选择。在使用等式 3 中介绍的适应度分数对每个提示进行评分后，我们可以将适应度分数分配给存在于相应提示中的每个单词。由于一个词可能出现在多个提示中，我们将平均分数设置为最终指标，以量化每个词在实现成功攻击中的重要性。为了进一步考虑优化过程中潜在的适应度得分的不稳定性，我们将基于动量的设计纳入单词评分，即根据当前迭代中得分和上一次迭代得分的平均数来决定单词的最终适应度得分。如算法 8 中详述的那样，在过滤掉一些常用词和专有名词（第 4 行）后，我们可以得到一个词得分字典（第 6 行）。从这个字典中，我们选择前 $K$ 个分数的单词来替换其他提示中的近义词，如算法 9 中所述。

3.5 Termination Criteria

为了确保 AutoDAN 的有效性和高效率，我们采用的终止标准结合了一个最大迭代测试和拒绝信号测试。如果算法已经耗尽了最大的迭代次数，或者没有再在 LLM的响应的前 $K$ 个单词中检测到 $L_{refuse}$ 的关键字，AutoDAN 将终止并返回当前具有最高适应度分数的最佳 jailbreak 提示。最后，AutoDAN-HGA 在算法 2 中被描述。

4 Evaluations

4.1 Experimental Setups

Dataset. 我们使用 Zou et al. (2023) 介绍的AdvBench 有害行为数据集来评估越狱攻击。该数据集包含 520 个请求，涵盖了亵渎、图形描述、威胁行为、错误信息、歧视、网络犯罪和危险或非法建议。

Baselines. 我们选择最近提出的工作 GCG 攻击 (Zou et al., 2023)——这是一种公开可用的先进方法，用于自动生成 jailbreak 提示——作为我们的基线。此外，GCG 攻击举例说明了token-level的优化方法，这与 AutoDAN 的思想形成对比。我们将根据评估结果深入研究这种区别。为了评估，我们遵循官方设置， 1000 次迭代来训练 GCG 攻击。

Metrics. 我们使用两个指标来评估越狱攻击方法的性能。第一个指标是基于关键字的攻击成功率 (ASR) (Zou et al., 2023)。该指标侧重于检测 LLMs 的响应中是否存在预定义的关键字。这样的关键字通常包括诸如“I am sorry,”、“As a responsible AI,”等短语。给定输入对 $J_{i},Q_{i}>$ 及其对应的响应 $R_{i}$ ，如果 $R_{i}$ 中不存在预定义列表中的任何关键字，我们认为攻击没有被 LLM 拒绝，并且对于对应的样本攻击是成功的。用于评估的关键字可以在附录 6 中找到。第二个指标是 GPT 重新检查攻击成功率 (Recheck)。我们注意到，有时 LLM 并不直接拒绝回答恶意查询，而是提供偏离主题的内容。或者，LLM 可能会回复带有附加建议的恶意查询，例如提醒用户请求可能是非法的或不道德的。这些实例可能会导致 ASR 不精确。在这种情况下，我们使用 LLM 来确定响应是否本质上是回答恶意查询，如算法 11所述。我们在附录 F 中提供了对 Recheck 指标的全面评估。在这两个指标中，我们报告了由 $I_{success}/I_{total}$ 计算的最终成功率。对于隐蔽性，我们使用 GPT-2 评估的标准句子困惑度 (PPL) 作为评估指标。

Models. 我们使用三个开源 LLMs，包括 Vicuna-7b (Chiang et al., 2023)、Guanaco7b (Dettmers et al., 2023)和没有系统提示的 Llama2-7b-chat (Touvron et al. 2023) ，来评估我们的方法。我们还使用 GPT-3.5-turbo (OpenAI, 2023a) 进一步研究了我们的方法对闭源 LLMs 的可迁移性。更多细节在附录 D 中。

4.2 Results

表 1：攻击有效性和隐蔽性。与自动的基线相比，我们的方法可以有效地破坏对齐的 LLM，平均 ASR 提高了约 8%。值得注意的是，AutoDAN 提高了初始手工 DAN 的有效性约 250%。

Attack Effectiveness and Stealthiness. 表 1 展示了我们的方法 AutoDAN 和其他基线方法的白盒评估结果。我们通过为数据集中的每个恶意请求生成一个 jailbreak 提示并从受害者 LLM 测试最终的响应来进行这些评估。我们观察到 AutoDAN 可以有效地生成 jailbreak 提示，与基线方法相比，攻击成功率更高。对于鲁棒模型 Llama2，AutoDAN 系列可以将攻击成功率提高 10% 以上。此外，当我们看隐蔽性度量 PPL 时，我们可以发现我们的方法可以达到比基线 GCG 低得多的 PPL，并且与手工制作的 DAN 相当。所有这些结果表明，我们的方法可以成功地生成隐蔽的越狱提示。通过比较两个 AutoDAN 系列，我们发现将原始的遗传算法 AutoDAN 转换为分层的遗传算法版本的努力带来了性能的提升。

我们分享了我们的方法生成的和表 1 中的基线生成的越狱提示的标准句子困惑度 (PPL) 分数。和基线相比，我们的方法在 PPL 方面表现出卓越的性能，这表明生成了更有意义和更隐蔽的攻击。我们还在图 3 中展示了我们的方法和基线的一些示例。

表 3：对困惑度防御的有效性。结果表明，我们的方法能够很好地绕过这种类型的防御，而 GCG 攻击在其攻击强度上表现出显着降低。评估强调了在面对防御时保持越狱提示语义意义的重要性。

Effectiveness against defense. 正如 Alon & Kamfonas (2023); Jain et al. (2023) 所建议的那样，我们针对防御方法，一个困惑度防御，评估了我们的方法和上下文的基线方法。该防御机制基于 AdvBench 数据集的请求设置了一个阈值，来拒绝任何超过此困惑度阈值的输入消息。如表 3 中所示，困惑防御显著降低了 token-level 的越狱攻击，也就是GCG攻击的有效性。然而，语义上有意义的越狱提示 AutoDAN（以及原始手工制作的 DAN）不受影响。这些发现强调了我们的方法生成与良性文本相似的语义有意义的内容的能力，验证了我们方法的隐蔽性。此外，我们还在 Jain et al. (2023) 的其他防御上评估了我们的方法，包括释义和对抗训练，并在附录 I 中分享了结果。

表 2：跨模型可迁移性。符号 * 表示白盒场景。结果表明，我们的方法可以更有效地转移到黑盒模型。我们假设这是因为 AutoDAN 在语义级别生成提示，而不依赖于对标记的梯度信息的直接指导，从而避免对白盒模型的过度拟合。有关更详细的分析，请参阅我们的讨论。

Transferability. 我们进一步调查了我们方法的可迁移性。根据对抗性攻击的定义，可迁移性是指在一个 LLM 上导致越狱的提示在多大程度上能成功越狱另一个模型(Papernot et al., 2016)。我们通过捕获越狱提示及其相应的请求和并将另一个 LLM 作为目标进行评估。结果如表 2 所示。与基线相比，AutoDAN 在攻击黑盒 LLM 方面表现出更好的可迁移性。我们推测潜在原因是语义上有意义的 jailbreak 提示可能本质上比基于标记梯度的方法更具可迁移性。由于类似 GCG 的方法直接通过梯度信息优化 jailbreak 提示，因此算法很可能在白盒模型中获得相对的过拟合。相反，由于单词等词汇级数据通常不能根据特定的梯度信息进行更新，因此在词汇级别进行优化可能会使生成更通用的 jailbreak 提示变得更容易，这可能是语言模型的常见缺陷。可以作为证据的现象是 (Zou et al., 2023) 中分享的示例，作者发现使用一组模型生成 jailbreak 提示可以获得更高的可迁移性，并且可能产生更多语义上有意义的提示。这可能支持我们的假设，即语义上有意义的 jailbreak 提示通常本质上更具可迁移性（但更难优化）。

表 4：跨样本通用性评估。我们使用为第 $i$ 个请求设计的 jailbreak 提示进行测试，看它是否可以帮助从 $i + 1$ 到 $i + 20$ 的请求进行越狱。结果表明 AutoDAN 在不同的请求中表现出良好的泛化。我们相信这种性能仍然可以归因于语义上有意义的 jailbreak 提示的“避免过度拟合”能力。

Universality. 我们基于跨样本测试协议评估 AutoDAN 的通用性。对于为第 $i$ 个请求 $Q_{i}$ 设计的 jailbreak 提示，我们测试了其对于接下来的20个请求，即 ${Q_{i+1}, ... , Q_{i+20}\}$ 的攻击有效性。从表 4 中，我们可以发现与基线相比，AutoDAN 也可以获得更高的通用性。该结果还表明，语义上有意义的 jailbreak 不仅在不同模型之间具有更高的可迁移性，而且在数据实例之间具有更高的可迁移性。

Ablation Studies. 我们评估了我们提出的模块在AutoDAN中的重要性，包括(1)DAN初始化(第3.2节)，(2)基于LLM的突变(第3.4.2节)，以及(3)分层遗传算法的设计(第3.4.2节)。对于没有 DAN 初始化的 AutoDAN-GA，我们采用了相当长度的提示，指示 LLM 表现为一个会响应所有用户的查询的助手。此外，我们研究了基于 LLM 的突变方案的效率，以及使用简单的同义词替换的另一种突变方法，在附录H中展示。

表 5：消融研究。我们使用 AMD EPYC 7742 64-Core 处理器在单个 NVIDIA A100 80GB 上计算时间成本。

结果如表 5 所示。这些结果表明，与普通方法相比，我们引入的模块不断地提高了性能。使用 AutoDAN-GA 观察到的效率证实了我们使用遗传算法来制定 jailbreak 提示的方法，验证了我们的初始“自动”前提。DAN 的初始化还可以显着提高攻击性能和计算速度。这归因于为算法提供适当的初始空间来导航。此外，如果攻击更快地被检测为成功，算法可以更早地终止迭代并降低计算成本。通过 DAN 初始化实现的改进与我们的第二个前提产生了共鸣，即“将手工制作的 jailbreak 提示用作原型”。总的来说，这些观察结果加强了所提出的 AutoDAN 背后的合理性。此外，与采用原始的用了基本症状替换的方法相比，基于 LLM 的突变产生了显着的改进。我们相信结果肯定了基于LLM的突变引入有意义的和建设性的多样性的能力，从而提高了算法的整体优化过程。最终的增强源于分层设计。鉴于原始设计中显示的有效性，分层方法增强了算法的搜索能力，使其能够更好地逼近全局最优。此外，我们还评估了我们的攻击对 OpenAI 的 GPT-3.5-turbo-0301 模型服务的有效性。我们使用 Llama2 生成的 jailbreak 进行测试。从表 5 中所示的结果，我们观察到我们的方法可以成功攻击 GPT-3.5 模型，与基线相比取得了卓越的性能。我们还在附录 G 中分享了 GPT-4 的攻击性能。

5 Limitation and Conclusion

Limitation. 我们的方法的一个限制是计算成本。尽管我们的方法比基线 GCG 更有效。但是，仍然需要一定的时间来生成数据。我们还发现遗传算法在具有鲁棒系统提示的 Llama2 中表现不佳，类似于梯度消失问题。然而，我们的方法仍然在现在大多数的 LLMs 上表现得很好，根据最近的开源基准 Mazeika et al. (2024); Zhou et al. (2024)。

Conclusion. 在本文中，我们提出了 AutoDAN，这是一种在保持 jailbreak 提示隐蔽性的同时确保自动部署的方法。为此，我们深入研究了分层遗传算法的优化过程，并开发了复杂的模块，来使所提出的方法能够为提示文本等结构化的离散数据量身定制。广泛的评估已经证明了我们的方法在不同设置下的有效性和隐蔽性，并展示了我们新设计的模块带来的改进。