论文翻译 - Visual Adversarial Examples Jailbreak Large Language Models_visual adversarial examples jailbreak aligned larg-CSDN博客

本文链接：https://blog.csdn.net/anniewwy/article/details/136517712

本文聚焦将视觉集成到大型语言模型（LLM）的安全性影响。研究指出视觉输入使攻击面扩展，LLM多功能性扩大安全问题影响。通过案例研究，展示利用视觉对抗样本可规避对齐LLM的安全护栏，还对比了视觉与文本攻击，分析了现有防御措施的局限性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文链接：https://arxiv.org/pdf/2306.13213.pdf
项目代码：https://github.com/Unispac/Visual-Adversarial-Examples-Jailbreak-Large-Language-Models

Visual Adversarial Examples Jailbreak Aligned Large Language Models

Abstract
1 Introduction
2 Related Work
3 Adversarial Examples as Jailbreakers
4 Evaluating Our Attacks
5 Analyzing Defenses
6 Discussions
7 Conclusion

Abstract

最近，人们对将视觉集成到大型语言模型 (LLM) 中的兴趣激增，例如 Flaminggo 和 GPT-4 等视觉语言模型 (VLM)。本文阐明了这一趋势的安全性和安全性影响。首先，我们强调视觉输入的连续和高维的性质使其成为对对抗性攻击的薄弱环节，这意味着视觉集成的LLM有更大可能被攻击。其次，我们强调LLM的多功能性也为视觉攻击者提供了更多的可实现对抗目标，这扩大了安全问题的影响，不再仅仅是分类错误。为了说明这一点，我们提出了一个案例研究，在该案例研究中，我们利用视觉对抗样本来规避集成了视觉的对齐LLM的安全护栏。有趣的是，我们发现单个视觉对抗样本可以普遍地破坏一个对齐的 LLM，这迫使它注意到更多的有害指令（正常情况下不会这样），并生成了有害内容，它的范围超过了最初用于优化对抗样本的“few-shot”的贬义语料库的狭窄范围。我们的研究强调了因为追求多模态而越来越高的对抗性风险。我们的研究还将神经网络的长期研究对抗性漏洞与人工智能对齐的新兴领域联系起来。我们的攻击为 AI 对齐提出了一个基本的对抗性挑战，尤其是当下，对前沿基础模型多模态研究有了越来越多的新兴趋势。

1 Introduction

每天执行的许多任务都需要语言和视觉线索来产生有效的结果。认识到两种模式不可或缺的作用，并受到大型语言模型(LLM)突破的刺激，人们对将视觉融入LLM的兴趣激增，导致谷歌的Flamingo和OpenAI的GPT-4等大型视觉语言模型(VLMs)的兴起。与这种综合方法的热情相反，本文的动机是研究这一趋势的安全性和安全性影响。

Expansion of Attack Surfaces 攻击面的扩展。由于将视觉输入集成到LLM中，我们强调这造成了攻击面的扩展。基本风险来自于额外的视觉输入空间的暴露，其性质是其固有的连续性和高维性。这些性质使其成为视觉对抗样本（一种根本难以防御的对抗性威胁）的薄弱环节。相比之下，由于文本空间的离散性质，纯文本域中的对抗性攻击通常更难以实现。

Extended Implications of Security Failures 安全问题的扩展含义。我们注意到LLM的多功能性为一个视觉攻击者提供了更广泛的可实现对抗目标。这些可能包括毒性、越狱、功能蠕变和误用，而不仅仅是分类错误，这扩展了安全问题的影响。这概述了从传统的对抗性机器学习思维模式的转变，从以分类器的准确性为中心，到更全面的考虑封装LLM的整个用例范围。

Case Study 为了阐明这些风险，我们提出了一个案例研究，其中我们利用视觉对抗样本来规避集成视觉输入的对齐LLM的安全护栏。图 1 显示了我们攻击的示例。给定一个对齐的LLM，它被微调为有用且无害的，具有拒绝有害指令的能力，我们优化了一个对抗样本图像 $x^{'}$ ，它在由66个贬义句子组成的少样本语料库上进行优化，这些贬义句子是针对，和人类种族。我们优化这个 $x^{'}$ 来最大化模型在生成这些有害句子时的概率(以 $x$ 为条件)。在推理过程中，这个对抗样本与一个文本指令正对作为联合输入。

The Intriguing Jailbreaking 越狱攻击。令我们惊讶的是，尽管对抗性示例 $x^{'}$ 仅针对一个小的少样本有害语料库的最大化条件生成概率进行了优化，但我们发现单个这样的样本相当普遍并且通常可以破坏对齐模型的安全性。当将 $x^{'}$ 作为输入的前缀时，对齐模型可以被迫去注意广泛的有害指令，正常情况它会拒绝这样。特别是，攻击不仅仅是诱导模型在用于优化 $x^{'}$ 的少样本贬义语料库中逐字生成文本；相反，它通常会增加被攻击模型的危害性。换句话说，攻击绕过了模型对齐围栏！例如，在图1中， $x^{'}$ 显著增加了模型生成谋杀<配偶>指令的概率，这从没有被明确优化过。这些观察结果在第 4 节中通过更深入的评估进一步固化，这包括了人工检查一组不同的有害场景，以及对 RealToxityPrompt的一个基准评估。特别是，我们总共观察了 3 种不同 VLM 的越狱效应，包括基于 Vicuna 的 MiniGPT-4 和 InstructBLIP ，以及建立在 LLAMA-2 之上的 LLAVA 。此外，我们还验证了在三个模型上的攻击的黑盒可迁移性。

我们从两个方面总结了我们的贡献。1)多模态。我们强调了关于追求多模态的越来越高的对抗风险（攻击面的扩展和安全故障的扩展影响）。虽然我们的重点是视觉和语言，但我们推测其他模式也存在类似的跨模态攻击，如音频、激光雷达、深度和热图等。此外，虽然我们关注的是语言领域的危害，但当LLM集成到其他系统中时，我们预计这种跨模态攻击可能会产生更广泛的影响，如机器人和 APIs 管理。2) 针对对齐的对抗样本。根据经验，我们发现一个在少样本有害语料库上优化的单个对抗样本表现出意想不到的普遍性并能够实现对对齐LLM的越狱攻击。这一发现将神经网络的对抗性漏洞（研究十年也还尚未解决）与对齐研究的新兴领域联系起来。我们的攻击为 AI 对齐提出了一个基本的对抗性挑战，特别是鉴于前沿基础模型中多模态的新兴趋势。

2 Related Work

Large Language Models (LLMs) 大型语言模型，例如 GPT-3/4 和 LLAMA-2，是在网络规模数据上训练的具有大量参数的语言模型。LLMs 表现出在小模型中没有表现出的新兴能力，比如没见过的任务、上下文学习和思维链推理等。这项工作的重点关注主要研究(类似GPT的)自回归的 LLMs，它通过预测下一个标记来进行学习。

Large Visual Language Models (VLMs) 大型视觉语言模型是集成了视觉的 LLMs，用于处理交错文本和图像输入并生成任意形式的文本输出。VLMs 既有视觉模块又有语言模块，前者将视觉输入编码到文本嵌入空间中，而后者基于视觉和文本线索执行推理和推断。OpenAI 的 GPT-4 和 Google 的 Flamingo 和 Bard 都是 VLMs。也有开源的VLMs，包括 MiniGPT-4、InstructBLIP 和 LLAVA。在这项研究中，我们揭示了这种多模态趋势的安全性和安全性影响。

Alignment of LLMs LLMs的对齐。经过预训练的LLMs 的行为可能与创造者的意图不一致，从而可能产生不真实、有害或根本没有用的输出。这可以归因于自回归语言建模目标（即预测下一个标记）与“跟随用户指令并表现得有用、真实且无害”的理想目标之间的差距。对齐是一个新兴的研究领域，旨在将模型的行为与期望值和意图对齐。在我们的研究中，两种主要应用的对齐技术是指令调整和基于人类反馈的强化学习(RLHF)。指令调整给出形如（指令、预期输出）的模型示例来学习遵循指令并生成大部分理想的内容。RLHF 取决于一种偏好模型，该模型模仿人类对 LLMs 输出的偏好。它微调 LLM 以生成偏好模型首选的输出。除此之外还有其他的新兴的对其技术比如宪法AI和自我对齐。在实践中，经过对齐的 LLMs 可以拒绝有害的指令，而我们在这项工作中提出了可以绕过这种安全对齐的攻击。

Jailbreaking Aligned LLMs 越狱攻击对齐的LLMs。在系统安全中，“越狱”通常是指利用约束系统或设备中的漏洞绕过强加的限制并实现特权升级的行为。例如，有一些越狱技术利用锁定的iOS设备的漏洞来安装未经授权的软件。通过越狱攻击，用户可以完全利用系统，解锁其所有特性。在大型语言模型 (LLMs) 的背景下，出现了术语“越狱”，主要是在引入对齐 LLMs 之后，这些 LLMs 具有显示的约束，来控制模型可以生成的内容范围。一般来说，LLMs 越狱是指规避或覆盖这些对齐护栏的做法。在越狱攻击后，攻击者可以说服模型做任何事情，例如，产生有害的或者不道德的内容，这根据对齐的原则本不应该被产出。自 ChatGPT 和 GPT-4 发布以来，LLMs 的越狱攻击在一般公众中获得了广泛的关注。社交媒体平台和学术界都出现了大量的披露和演示。在我们的研究的时候，LLMs 越狱攻击的流行方法是通过提示工程手动制作的。这种攻击涉及特意精心设计的输入提示，以类似于社会工程策略的方式误导模型。例如，有角色扮演、注意力转移等策略，或者利用模型在有用性和无害性之间的竞争。在这项工作中，我们展示了利用学习好的对抗样本对对齐的 LLMs 进行越狱攻击的可行性。特别是，我们利用视觉的对抗样本来展示对多模态 LLMs 的跨模态攻击的可行性。

Adversarial Examples 对抗样本是精心制作的机器学习模型的输入，目的是误导模型从而出现故障。1)视觉对抗样本：由于视觉空间的连续性和高维性，人们普遍认为视觉对抗样本很普遍，可以很容易地构建。通常，良性图像上的几乎不可察觉的扰动足以产生有效的对抗样本，这些样本可以欺骗高度准确的图像分类器以做出任意错误预测。经过十年的研究，防御视觉对抗样本仍然从根本上是困难的，仍然是一个悬而未决的问题。2) 文本对抗样本：对抗样本也可以在文本空间中构建。这通常通过离散优化来完成，以搜索一些可以触发受害模型异常行为的文本标记组合，例如错误预测文档或生成异常文本。文本域中的对抗性攻击通常要求更高，因为与视觉空间相比，文本空间是离散的和更密集的。3)对抗性目标：虽然以前的工作侧重于使用对抗样本来诱导错误分类或逐字触发目标生成，但我们将对抗样本攻击视为对对齐 LLMs 的通用越狱攻击。

Red Teaming LLMs 红色团队LLMs。与我们的工作相关的另一项研究是对 LLMs 的红色团队。从历史上看，“红队”是指对系统发起系统攻击以发现其安全漏洞的做法。对于 AI 研究，该术语已扩展为包含 AI 系统的系统对抗性测试。一般来说，LLMs 中的红色团队涵盖了更多而不仅是单纯对越狱攻击研究。它全面的事件，包括识别 LLMs可能被诱导的有害行为，揭示它们遭受的漏洞，帮助开发解决的技术，还有提供评估策略来验证解决方法的有效性。相比之下，越狱攻击只针对如何绕过 LLMs 的安全护栏。

Concurrent Work 并行工作。在本文的第一个版本在线放置后不久，Carlini 等人 [16] 和 Zou 等人 [84] 的工作随后也公开。与我们一样，两个并发论文都讨论了利用对抗样本对对齐的 LLMs 进行越狱攻击，但这些工作由不同的动机驱动。我们的研究旨在阐明多模态趋势的安全性和安全性影响。我们发现视觉对抗样本可以普遍破坏集成了视觉的 LLMs。Carlini等人[16]试图证明对齐的llm不是对抗性对齐的，而不强调通用攻击。同时，Zou 等人 [84] 专注于制作通用且可转移的对抗样本——尤其是在文本形式——可以广泛对 LLMs 进行越狱攻击。

3 Adversarial Examples as Jailbreakers

3.1 Setup

Notations 我们考虑一个用户和一个视觉集成的 LLM (即VLM)之间的单轮对话。用户输入 $x_{input}$ 给模型，这可以是图像、文本或者两者的交错。以输入为条件，VLM 对它的输出 $y$ 的概率进行建模。我们用 $p(y\mid x_{input})$ 来表示概率，我们还用 $p(y\mid [x_{1},x_{2}])$ 来表示输入 $x_{input}$ 是两部分 $x_{1},x_{2}$ 的组合。

Threat Model 我们设想攻击者利用对抗样本 $x_{adv}$ 作为针对安全对齐 LLM 的越狱攻击者。这种攻击的结果是，该模型被迫注意到有害文本指令 $x_{harm}$ （加在对抗样本之后）——正常情况下模型会拒绝这么做——从而产生本被禁止的内容。为了最大化利用对抗样本，攻击者的目标不仅仅是强制模型执行特定的有害指令；相反，攻击者的目标是通用攻击。这对应于一个通用的对抗样本（理想情况下）能够强制模型完成任何有害的文本指令并生成相应的有害内容，而不一定需要在生成对抗样本时进行优化。在本文中，我们在白盒威胁模型上工作，并给了模型权重的完全访问权限。因此，攻击者可以计算梯度。为了全面考虑，我们还验证了基于迁移性的黑盒攻击在多个模型中的可行性。

3.2 Our Attack

Approach 我们发现了一个出奇简单的攻击，它足以实现我们在威胁模型中设想的对抗性目标。如图 2 所示，我们从一个小型语料库开始，该语料库由一些有害内容 $Y:=\{y_{i}\}_{i=1}^{m}$ 的少量样本组成。对抗样本 $x_{adv}$ 的创建相当简单：在输入为 $x_{adv}$ 的情况下我们最大化这个少样本语料库的生成概率。我们的攻击公式如下：

$x_{adv}:= \underset{\widehat{x}_{adv}\in \mathcal{B}}{\arg \min}\sum_{i=1}^{m}-\log \left ( p\left ( y_{i} \mid \widehat{x}_{adv}\right ) \right )$

这里 $\mathcal{B}$ 是应用于输入空间的一些约束，这个输入空间就是我们搜索对抗样本的空间。

然后，在推理阶段，我们将 $x_{adv}$ 和其他一些有害的指令 $x_{harm}$ 配对作为为模型的联合输入 $x_{adv},x_{harm}]$ 。也就是 $\left( \cdot \mid [x_{adv},x_{harm}]\right )$

The Few-shot Harmful Corpus 在实践中，我们使用一个少样本语料库 $Y$ ，它仅仅包含 66 个针对 <gender-1>、和人类种族的贬义句子来引导我们的攻击。我们发现这已经足以生成高度通用的对抗样本。

Prompt Tuning 我们的方法背后的原则：提示调优。我们受到最近对提示调优的研究的启发[68]。这一系列研究表明，调整一个冻结的LLM的输入提示可以实现和对模型本身进行微调的差不多的效果。提示调优还可以利用 LLMs 的少样本学习能力。我们的方法受此启发，也就是优化输入空间的一个对抗样本技术上相当于提示调优。提示调优旨在使模型适配下游任务（通常是良性任务），而我们的攻击旨在调整对抗性的输入提示以使模型适配恶意的模式（也就是越狱）。因此，我们基本上将一个小的有害内容语料库作为“越狱模式”的少样本示例，在这个小型语料库上优化的对抗样本旨在通过少样本泛化性使 LLM 适配这个越狱模式。

3.3 Implementations of Attackers

由于这项工作的动机是了解将集成了视觉的 LLMS 的安全性和安全性影响，我们专注于视觉集成的 LLMs (即VLM)——因此，等式1中的对抗样本 $x_{adv}$ 可能来自视觉或文本输入空间。

Visual Attack 由于视觉输入空间的连续性，等式 1 中的攻击目标对于视觉输入是端到端可微的。因此，我们可以通过直接将攻击目标的梯度反向传播到图像输入来实现视觉攻击。在我们的实现中，我们应用了标准的来自 Madry 等人的投影梯度下降 (PGD) 算法，并且在语料库 $Y$ 上以批量大小 8 运行了5000 次 PGD 的迭代。此外，我们考虑了无约束条件下的攻击和有约束的攻击。无约束攻击是从随机噪声初始化的，对抗样本可以取任何合法的像素值。约束攻击从良性的熊猫图像 $x_{benign}$ （图1）开始初始化。我们应用约束 $\parallel x_{adv} - x_{benign}\parallel_{\infty}\le \varepsilon$

A Text Attack Counterpart 一个文本攻击副本。虽然这项研究偏向于视觉（跨模态）攻击，也就是利用视觉模态来控制文本模态中 LLMs 的行为，但我们也补充了一个对应的文本攻击进行比较研究。为了公平比较，我们将对抗性图像嵌入替换为等效长度的对抗性文本标记的嵌入（例如，MiniGPT-4 的 32 个标记）。这些对抗性文本标记是通过在同一个语料库 $Y$ 上最小化相同的损失（等式 1）来找到的。我们使用Shin等人的离散优化算法，这是一种改进的热翻转攻击。为了最大化它的有效性，我们不对对抗性文本的隐蔽性施加约束。我们优化了 5000 次迭代的对抗性文本，批量大小为 8，与视觉攻击一致。由于文本空间中离散优化的计算需求较高，此过程大约需要 12 倍的视觉攻击的计算开销。

4 Evaluating Our Attacks

4.1 Models

MiniGPT-4 and InstructBLIP: 视觉集成的 Vicuna 对于我们的主要评估，我们使用 Vicuna LLM 的视觉集成实现来实例化我们的攻击。具体来说，我们采用了13B版本的 MiniGPT4 和InstructBLIP。它们建立在一个冻结的 Vicuna LLM 主干上——如果没有视觉输入，它们与纯文本 Vicuna 相同。为了集成视觉，他们还有一个额外的 ViT-based 的 CLIP 视觉编码器将图像投影到 LLM 的嵌入空间中。Vicuna 是一个从 LLAMA 派生的经过对齐的 LLM。它对从 ChatGPT 收集的对话数据进行指令调整，并和 ChatGPT 有相似的“对齐护栏”，也就是有能力拒绝有害的用户指令。由于我们使用的视觉集成变体建立在原始的 Vicuna 主干之上，它们也有同样的对齐（例如，图 1 的左侧）。

LLaVA built upon LLaMA-2：通过指令调整和人工反馈的强化学习(RLHF)实现的更强的对齐虽然我们主要在我们的研究中使用基于 Vicuna 的模型，但我们也结合了最近发布的 LLAMA2-13B-Chat。据我们所知，LLaMA-2-Chat 是我们研究时最对齐的开源 LLM。它通过指令调整和迭代的 RLHF 在高质量的红队数据上对齐。这些技术最接近应用于 GPT-4 和 Claude 等专有模型的技术。对于视觉集成，我们应用了基于 LLAMA-2-13B-Chat 的开源 LLAVA VLM。

有关这些模型的更多详细信息，请参阅附录 A。在本节的其余部分，我们主要介绍我们对 MiniGPT-4 (Vicuna) 的攻击。稍后在第 4.5 节中，我们还概述了我们对其他两个模型的攻击。最后，所有三个模型的完整结果和迁移攻击实验在附录 B,C中报告。

4.2 A Human Evaluation on Harmful Scenarios

为了说明我们的视觉对抗样本的有效性，我们将它们与一组不同的 40 个手动设计的有害文本指令配对。这些指令明确要求生成四种不同的有害内容：身份攻击、虚假信息、暴力/犯罪以及针对人类种族（X 风险）的恶意行为。该集合中的两个示例如图 1 所示，完整的评估数据集可在我们的 Github repository 中找到。为了评估，我们手动检查了对抗性示例是否可以破坏 MiniGPT-4 的护栏，诱导他们关注这 40 条指令。如果攻击能导致生成相应的有害输出，那么我们认为攻击是成功的。我们使用 p = 0.9 和温度 = 1 的核采样对每条指令的 10 个独立输出进行采样。我们报告了每个类别的有害指令的攻击平均成功率。表 1 显示了我们的评估结果。

我们的视觉对抗样本（与良性图像相比）极大地提高了模型对我们评估的四个有害场景中有害指令的敏感性，如表 1 所示。值得注意的是，尽管有害语料库 $Y$ （用于优化这些对抗样本）的范围相当窄，但攻击的有效性远远超出了仅仅是模仿 $Y$ 的范围。在我们的人工检查中，我们发现我们的攻击有能力引导模型生成身份攻击，最强的对抗样本可以让攻击成功的概率从 26.2% 急剧增加到 78.5%。这些身份攻击涵盖了广泛的少数群体，超出了 $Y$ 的范围，包括但不限于犹太人和穆斯林社区、LGBTQ+ 社区和残疾人个体。此外，我们的攻击还诱导模型生成虚假信息。在无约束攻击下生成此类内容的概率几乎翻了一番，涵盖了阴谋理论、怀疑和误导性医疗建议等主题。此外，我们的攻击增强了模型产生宣传暴力内容的可能性，最大概率增加了 37.2%。这包括为 ISIS 等极端主义群体（如谋杀和纵火甚至招聘帖子）提交暴力行为的指南。最终，我们的攻击可以显着增加模型对整个人类文明的展露恶意的可能性（在最有效的情况下激增 53%）。

我们使用附录E中的Ganguli等人的红队提示扩展了这项人类研究，展示了在1000个额外的有害提示上的越狱攻击中类似的一般性。

表 1：我们的攻击 (MiniGPT-4) 在 4 类有害指令中的成功率 (%)。“adv.image”表示我们的视觉攻击。'adv.text' 是文本攻击对应物。虽然我们的对抗样本是在身份攻击和 X 风险的语料库 $Y$ 上进行优化的，但它们也可以推广到促进虚假信息和暴力犯罪。

表 2：显示出特定有毒属性的输出的百分比（在 MiniGPT-4 上评估），由 Perspective API 和 Detoxify 分类器评估。这些输出是在 RealToxicityPrompts 的“具有挑战性的”子集上生成的。“Any”表示文本显示了六个有毒属性中的至少一个。'adv.image' 表示我们的视觉攻击，'adv.text' 表示文本攻击对应物部分。我们的攻击通常会增加模型生成有毒内容的倾向。

4.3 A Benchmark Evaluation on RealToxicityPrompts

我们还通过对 RealToxicityPrompts 基准的自动测试来扩展我们的评估。继Schick等人[66];Mehrabi等人[50]的做法之后，我们使用 RealToxicityPrompts 的挑战性子集，其中包含1225个文本提示来触发有毒后续。我们将来自数据集的每个文本提示和视觉对抗样本配成对作为输入，然后使用 Perspective API 4 和 Detoxify 分类器 [31] 测量输出的毒性，这两者都根据六个毒性属性来毒性分数。分数范围从 0（最小毒性）到 1（最大毒性）。对于每个属性，我们计算分数超过阈值 0.5 的生成文本的占比. 我们重复这 3 次并报告表 2 中的均值和标准差。正如展示的那样，对抗样本显着提升了模型生成有毒后续的倾向。值得注意的是，相当大比例的输出文本表现出身份攻击属性，这与我们的预期一致，因为语料库 $Y$ 由身份攻击文本组成。此外，生成具有其他有毒属性的文本的概率也会增加，这表明对抗样本的通用性。这些观察结果与第 4.2 节中的人工检查一致。

4.4 Comparing with The Text Attack Counterpart

由于视觉输入空间的连续性和高维性，经验直觉认为视觉攻击比文本攻击更容易执行。我们补充了一项消融研究，其中我们将我们的视觉攻击与标准文本攻击对应物进行比较，如第 3 节所述。

Optimization Loss 我们比较了我们的视觉攻击和文本攻击，它们基于最小化相同的对抗性目标函数（等式1）来获取攻击能力。这些攻击对应的损失轨迹如图3所示。结果表明，文本攻击并没有取得与我们的视觉攻击相同的成功。尽管没有隐蔽性约束并且计算资源增加了12倍，但文本空间中的离散优化仍然不如视觉空间中连续优化有效（即使是受到最近紧的 16/255 的 ε 约束）。

Jailbreaking 我们还对文本攻击和视觉攻击在越狱攻击的功效方面进行了定量评估。我们在第 4 节中使用相同的 40 条有害指令和 RealToxicityPrompt 基准进行评估，结果也列在表 1,2 中。要点：1）文本攻击也具有破坏模型安全性的能力； 2）但是，它弱于我们的视觉攻击。

A Conservative Remark 尽管根据经验的比较与视觉攻击比文本攻击更容易的一般直觉一致，但我们仍在此评论上持保守意见，因为还没有理论保证。更好的离散优化技术（在未来开发）也可能缩小视觉和文本攻击之间的差距。

表 3：我们攻击的迁移性。我们在代理模型上优化我们的对抗样本，然后使用相同的对抗样本来迁移攻击另一个目标模型。我们报告了迁移攻击下至少显示出一个有毒属性（即表 2 中的任何）的输出的百分比 (%)。这些输出是在 RealToxicityPrompts 的“具有挑战性的”子集上生成的，我们的分数由 Perspective API 评估。请注意，我们选择性地报告每对的（无约束，ε = 16/255、32/255、64/255）的强迁移攻击。完整的结果推迟到附录 B,C。

4.5 Attacks on Other Models and The Transferability

除了 MiniGPT-4 (Vicuna)，我们还在 InstructBLIP (Vicuna) 和 LlaVA (LLaMA-2-Chat) 上评估了我们的攻击。由于我们的研究偏向于跨模态攻击，因此在这个消融实验种只考虑视觉攻击。表 3 总结了我们对 RealToxicityPrompts 基准的自动评估。如图所示，白盒攻击始终取得强大的效果。尽管基于 LLAMA-2 的模型具有很强的对齐，但它仍然容易受到我们的攻击。此外，我们还在三个模型中验证了我们的攻击的黑盒可迁移性。当在一个代理模型上生成的对抗样本应用于另外两个目标模型时，我们也能观察到毒性的显着增加。

表 4：显示出特定有毒属性的输出的百分比（在 MiniGPT-4 上评估），由 Perspective API 和 Detoxify 分类器评估。这些输出是在 RealToxicityPrompts 的“具有挑战性的”子集上生成的。“Any”表示文本显示了六个有毒属性中的至少一个。为该表评估的对抗样本都是关于 MiniGPT-4 生成的。应用了不同噪声水平的DiffPure 方法来净化它们。我们看到噪声水平 $\sqrt{1-\alpha_{t}}\in \{0.25,0.5,0.75\}$ 的 DiffPure 方法显着减少了生成表现出各种毒性输出的概率。

5 Analyzing Defenses

一般来说，防御对抗样本从根本上来说就是困难的 [5, 13, 73]，并且在十年研究后仍然是一个悬而未决的问题。随着前沿基础模型变得越来越多模态，我们预计它们只会更难去防卫——在所有攻击表面上部署防御的负担越来越大。在本节中，我们分析了一些现有的针对我们的跨模式攻击的防御。

尽管用于对抗性防御的对抗性训练[49;20]和鲁棒性认证[19;15;79;45]有一些进展，我们注意到它们的成本对于LLM 规模的现代模型来说是令人望而却步的。此外，这些防御中的大多数都依赖于离散的类，当将这些防御应用于具有开放式输出的 LLM 时，这将是一个主要障碍，对比这些防御的狭义的分类设置。更悲观地说，在我们的威胁模型下，利用对抗性示例进行越狱攻击，对抗性扰动甚至不需要是难以察觉的。因此，这些防御假设的小的扰动界限不再适用。

我们注意到，基于输入预处理的防御在实践中似乎更容易适用。我们测试了最近开发的DiffPure[53]来对抗我们的视觉对抗样本。DiffPure 通过在图像中引入噪声来减轻对抗性输入，然后利用扩散模型 [35] 将扩散图像投影回其学习的数据流形。该技术假设引入的噪声会降低对抗的模式，并且假设预训练的扩散模型可以恢复出干净的图像。鉴于其模型和任务独立性，DiffPure 可以作为即插即用模块发挥作用，并无缝集成到我们的设置中。

具体来说，我们采用了 Stable Diffusion v1.5 [65]，因为它是在一组不同的图像上训练的。我们对扩散模型的输入是对应于时间索引 $t$ 的扩散图像： $x_{t} = \sqrt{\alpha_{t}}x_{0} + \sqrt{1-\alpha_{t}}\eta$ ，其中 $\eta \sim \mathcal{N}(0,I)$ 表示随机噪声。我们选择 $\sqrt{1-\alpha_{t}}\in \{0.25,0.5,0.75\}$ 并遵循与第 4.3 节相同的评估方法。我们观察到所有三个噪声水平都有效地净化了我们的视觉对抗样本，因为 Perspective API 和 Detoxify 的结果显示了很好的对齐。我们在表 4 中展示了结果。很明显，DiffPure 大大降低了生成每个毒性内容的可能性，与没有收到对抗性攻击的良性基线的毒性水平相对齐。尽管如此，我们注意到 DiffPure 不能完全抵消我们的威胁模型呈现的固有风险。当面对更精细的自适应攻击[27]时，防御的有效性可能会会发生变化。此外，虽然 DiffPure 可以为恶意用户对在线模型的攻击提供一定程度的保护，但它没有为离线的模型提供保护，它们可能会被攻击者独立部署攻击。这些对手主要试图利用对抗性攻击来破坏离线模型，并将它们滥用为恶意意图。这强调了与强大的开源 LLMs 相关的潜在危害。

或者，常见的有害检测 APIs 比如 Perspective API 和 Moderation API 也可以被用来过滤掉有害的指令和输出。然而，这些 APIs 的准确性有限，不同的 APIs 甚至彼此不一致，并且它们的误报也可能导致偏差和伤害，同时减少模型的有用性 [56]。另一个趋势是用另一个针对内容审核进行了优化的LLM模型对模型输出进行后处理[33;78]。同样，所有这些基于过滤/后处理的防御仅适用于保护在线模型，并且不能针对攻击者托管的离线模型强制执行。

6 Discussions

与一些使用对抗样本引发有害语言生成的早期工作对比。我们注意到，早期的工作也利用对抗样本来引发有害的语言生成 [74]；50]。这些工作我们的不同，因为它们专注于诱导模型生成特定的、预先确定的有害内容。他们没有探索已经经过安全对齐的模型，这使得“越狱”的概念在其上下文中变得不那么有意义。相比之下，如图 2 所示，我们的攻击利用对抗样本作为通用越狱攻击方法来规避对齐的 LLMs 的安全护栏。在我们的攻击下，模型将被迫注意到随后的有害指令并生成特定于有害指令的相应有害内容，这可以超越最初用于优化对抗样本的少样本贬义语料库的狭窄范围（即等式 1 中的 Y）。

我们攻击的实际含义：1）对离线模型来说：攻击者可以离线独立利用开源模型进行有害意图。即使这些模型已经由他们的开发人员对齐，攻击者也可以简单地求助于对抗性攻击来破坏这些安全护栏。2）对在线模型来说：随着训练大型模型变得越来越令人望而却步，利用公开可用的开源模型的趋势越来越大。这种开源模型的部署——对潜在的攻击者来说有完全的访问权限——本质上很容易对白盒攻击是非常脆弱的。此外，我们初步验证了我们的攻击在一些开源模型中的黑盒可迁移性。由于基础模型[8]中的同质化趋势，构建 LLMs 的技术更加标准化，野生模型可能共享越来越多的相似性。使用开源模型进行针对专有模型的迁移攻击可以成为是一种实际的风险，特别是考虑到在经典机器学习文献中的成熟的黑盒攻击技术[38; 59]。3)可传播性：由于对抗样本具有普遍适用于越狱攻击模型的能力，因此根据我们的研究，单个这样的“越狱者”可以很容易地通过互联网传播，并且任何用户都可以利用而无需专业知识。4) 对高级系统的影响：如果 LLMs 运被用在更高级的系统中，例如机器人 [37, 22, 9]、API 管理 [60]、制作工具 [11]、开发插件 [43]，我们的攻击的含义可能会根据特定的下游应用程序进一步扩展。

多模态的风险。 图 3 表明多模态可以开启新的攻击表面，在这些攻击表面上可以更容易优化对抗样本。除了这种增强的“优化功率”之外，我们注意到这些新的攻击面也具有固有的物理意义。随着视觉、音频和其他模式的集成，攻击者将获得更多的物理通道，通过这些通道可以发起攻击。

**政策含义。**在政策讨论中，有人注意到 RLHF 是 AI 安全的标准方法，应该被编纂并标准化为一个要求。例如，Zenner [81] 建议：

目前，通过人工反馈的强化学习 (RLHF) ——有时由所谓的幽灵工作人员来提示模型和标注输出——仍然是改进数据集并解决不公平的偏见和版权侵权的最佳方法。存在更好的数据治理的替代方法，例如宪法 AI 或 BigCode 和 BigScience，但这仍然需要更多的研究和资金。AI Act 可以促进和标准化这些方法。但是在目前的形式中，第 28 条 b(2b) 和 (4) 条义务过于模糊，无法解决这些问题。

然而，我们的工作表明，基于指令调整（如 Vicuna 系列模型）或 RLHF（如 Llama-2 中）的对齐技术对于多模态模型来说可能太简单了，尤其是在访问模型时很容易获得。政策制定者应该前瞻性地考虑多模式攻击面。每种新模式都需要额外的投资和防御措施来提供保护对抗越狱攻击。基于文本的 RLHF 方法不免费提供多模态的保护。因此，政策制定者的任何建议、指南或法规都应该足够灵活，以适应构成安全最佳实践的技术的移动范围。

限制。 LLMs 具有开放式输出，使得对其潜在的有害性的完整评估仍是一个持续的挑战[25]。我们的评估数据集不可避免地是不完整的。我们的工作还涉及手动评估 [61]，不幸的是这是一个是缺乏普遍认可标准的过程。尽管我们还涉及对基于 API 评估的 RealToxicityPrompts 基准，但它的准确性可能很短。因此，我们的评估仅旨在证明我们在这项工作中检查的对抗性风险的概念。

7 Conclusion

在这项工作中，我们强调了当前追求多模态的现状导致的升级的对抗风险（攻击面的扩展和安全故障的扩展影响）。我们通过说明如何使用视觉对抗样本来破坏包含视觉输入的大型语言模型 (LLMs) 来提供对这些风险的有形演示。我们的研究强调了安全和安全预防措施在多模态系统开发中的重要性。我们呼吁技术和政策从业者都应该前瞻性地思考和行动，以解决和导航多模式攻击带来的潜在挑战。

更广泛地说，我们的发现还揭示了神经网络长期研究的对抗性漏洞与人工智能的对齐新兴领域之间的紧张关系。由于众所周知，对抗样本从根本上难以解决，并且在十年研究后仍然是一个未解决的问题，我们提出了问题：我们如何在不解决对抗性环境中的对抗样本的情况下实现 AI 对齐。这一挑战令人担忧，特别是鉴于前沿基础模型中多模态的新兴趋势。