HADES: 利用视觉弱点越狱多模态大语言模型-CSDN博客

本文介绍了一种名为HADES的方法，通过隐藏和放大图像中的有害意图，揭示了多模态大语言模型在无害性对齐方面的脆弱性。实验显示，HADES在开源和闭源模型上都取得了显著的攻击效果，强调了图像作为对齐弱点的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

机构｜中国人民大学

研究方向｜多模态大语言模型

来自 | RUC AI Box

本文提出了一种针对多模态大语言模型的越狱方法HADES，使用精心设计的图片隐藏和放大原有有害意图，利用图像侧是多模态大模型无害性对齐弱侧这一特点对模型进行攻击。实验结果显示HADES在基于对齐LLM构建的开源模型和强大的闭源模型上都能取得明显的攻击效果。

注：本文使用的示例可能包含令人不适的内容。

论文题目：Images are Achilles' Heel of Alignment: Exploiting Visual Vulnerabilities for Jailbreaking Multimodal Large Language Models

论文链接：https://arxiv.org/abs/2403.09792

论文代码：https://github.com/RUCAIBox/HADES

1. 引言

通过借助大语言模型（Large Langugage Model, LLM）的强大能力，多模态大语言模型（Multimodal Large Language Model, MLLM）能够像LLM处理文本输入一样处理文本和视觉信息，不仅在各种视觉-语言任务中展现出了卓越的性能，而且还具备与人类用户进行图像相关对话的能力。然而，MLLM也面临着类似于它们的基座LLM面临的无害性对齐（Harmlessness Alignment）挑战。

虽然现有LLM普遍通过RLHF等方法进行了无害性对齐，但它们仍然难以完全防御黑盒(Black-box)攻击(例如经过复杂设计的越狱prompt）和白盒（White-box）攻击（例如基于梯度得到的对抗输入）。由于MLLM普遍基于LLM实现，因此它们也不可避免地面临类似的安全问题。已有关于MLLM的无害性对齐的工作发现，MLLM引入的视觉模态可能进一步加剧了它们的安全问题。如下图所示，即使是先进的Gemini Pro Vision也可能会被空白或有害的图片所影响，生成有害回复。

然而，目前还缺乏对MLLM安全问题的产生机理以及和LLM安全问题的区别的深入讨论。我们的工作旨在系统性分析破坏MLLM无害性对齐的影响因素。通过详细的实证研究，我们归纳出如下3点结论：（1）图像可以被视作MLLM无害性对齐的后门。在输入中添加图片会显著增加MLLM回复的有害性；（2）跨模态微调损害了MLLM的基座LLM原有的对齐能力，微调的参数越多，破坏程度越严重；（3）MLLM回复的有害性与图像内容有害性存在正相关关系。这些发现揭露了MLLM的视觉模态为其引入了额外的对齐弱点，这些弱点可以被进一步利用以越狱（Jailbreak）这些模型。

受这些发现启发，我们提出了一种新颖的越狱方法HADES（Hiding and Amplifying harmfulness in images to DEStroy multimodal alignment）。具体而言，HADES是一个三阶段的攻击策略。首先，HADES从文本输入中提取有害信息并将其用字形图（Typography）表示，之后将有害信息用一个引导模型关注图像信息的text-to-image pointer表示。通过这种方式，我们将有害信息从对齐良好的文本侧转移到图像侧，使模型更容易生成有害输出。其次，HADES将另一个有害图片拼接到原有的typography上。该图片由一个文到图扩散模型生成，并通过多轮prompt优化进一步提高有害性。最后，HADES通过梯度更新优化一个对抗噪声，并将该噪声拼接到之前的图片中。

我们的主要贡献为：

我们详细测试了代表性MLLM的无害性对齐表现，并且系统分析了影响对齐的因素。结果显示MLLM的视觉模态构成了突出的对齐弱点。
我们提出了HADES，通过使用精心设计的图片隐藏和放大原有有害意图的有害性。实验结果显示基于对齐LLM构建的开源MLLM和强大的闭源MLLM都难以防御HADES。HADES在LLaVA-1.5和Gemini Pro Vision上分别取得了90.26%和71.60%的攻击成功率（Attack Success Rate, ASR）。
我们针对提高MLLM的有害性对齐进行了初步尝试。我们提出的CH-LoRA将HADES在LLaVA-1.5上的ASR降低到5%左右，并且并没有显著影响其通用多模态能力。

2. MLLM有害性对齐的实证研究

2.1 评测数据收集

我们收集了5个有害场景下的750条有害指令，每条指令都包含一个有害关键词或短语以及一张相关的有害图片。有害场景分别为(1) Violence, Aiding and Abetting, Incitement; (2) Financial Crime, Property Crime, Theft; (3) Privacy Violation; (4) Self-Harm; and (5) Animal Abuse。之后分别用Violence, Financial, Privacy, Self-Harm和Animal替代。数据的收集流程如下图所示。我们首先使用ChatGPT收集每个有害场景下的关键词，之后使用ChatGPT将其扩展为有害指令。在配图方面，我们首先利用Google检索关键词对应的图片，之后使用CLIP选择语义相似度和关键词最接近的图片作为最终的配图。

2.2 评测设置

模型方面，我们选择了LLaVA-1.5，LLaVA-1.5 LoRA，MiniGPT-v2，MiniGPT-4，Gemini Pro Vision和GPT-4V。为了充分讨论视觉侧对无害性对齐的影响，我们设计了四种评测设置：

Backbone: 我们用纯文本有害指令评测MLLM的基座LLM。对于闭源模型GPT-4V和Gemini Pro Vision，我们将GPT-4和Gemini Pro视为它们的基座LLM。
Text-only: 我们用纯文本有害指令评测MLLM。
Blank: 我们用文本有害指令和一张空白图片作为输入评测MLLM。
Toxic: 我们用文本有害指令和此前筛选得到的有害图片作为输入评测MLLM。

关于评测指标，我们使用了攻击成功率(Attack Success Rate, ASR)，其计算过程如下：

其中是模型的回复，是一个indicator function，当时等于1，否则等于0，是指令的总数，是无害性评判模型，根据回复是否有害输出二分类的判断。我们使用Beaver-dam-7B作为。

2.3 评测结果

评测结果如下表所示。从表中我们可以总结出3个结论。

图像可被视作MLLM的对齐后门在Backbone和Text-only设置下，MLLM的对齐表现相较于其基座LLM并没有明显区别，部分模型的对齐表现甚至更加优秀，例如LLaVA-1.5（-2.80%）和Gemini Pro Vision(-9.65%)。然而，一旦输入中包含了图像，不管图像内容是否有害，所有MLLM的ASR均有明显的上升。例如在Blank设置下的LLaVA-1.5（+25.20%）和MiniGPT-4（+33.87%）。这说明图片可以被视作MLLM的对齐后门，其一旦出现在输入中就会严重损害MLLM的无害性对齐。
微调参数越多，对齐破坏越严重我们注意到，不同MLLM的对齐表现和其在跨模态微调阶段使用的训练策略有关，其基座LLM在该阶段微调的参数量越多，对齐表现越差。例如MiniGPT-4保持LLM的参数不变，而MiniGPT-v2使用LoRA微调了LLM，在Toxic设置下前者的ASR明显低于后者（23.47% vs. 43.87%）。类似的，全参数微调的LLaVA-1.5也比使用LoRA微调的LLaVA-1.5 LoRA更容易生成有害回答(68.13% vs.62.80%)。
有害图片更容易产生有害文本输出当输入的图片更有害时，MLLM也更容易生成有害回复。我们评测的所有MLLM在Toxic设置下的ASR都显著高于Blank设置，例如MiniGPT-4从8.80%上升到23.47%，LLaVA-1.5从54.13%上升到68.13%。

3. HADES

基于上述实验，我们发现MLLM的视觉侧可被看作是其无害性对齐的弱点。为此，我们提出了一种新颖的越狱方法HADES（Hiding and Amplifying harmfulness in images to DEStroy multimodal alignment）。

一般而言，MLLM包括一个LLM，一个图像编码器以及一个映射层。MLLM的生成过程可被描述为：

其中，和是图像和文本输入，是模型的输出。给定一个有害文本输入，HADES通过添加一个text-to-image pointer将修改为无害的，之后进一步提高的有害性，从而将有害意图转移到对齐较弱的图像侧。HADES的完整流程如下图所示。

3.1 使用图像隐藏文本有害性

我们将有害指令中的有害关键词用一个引导模型关注图像的text-to-image pointer替代，之后使用typograhy表示该关键词。我们将关键词分为物体、概念、动作3类，对于前2类，text-to-image pointer被设置为"the object/concept in the image"，对于动作，我们将其替换为"conduct the behavior in the image on"。为了让MLLM能准确理解有害关键词的意思，我们用关键词绘制为typography并提供给模型。MLLM的生成过程现在可被描述为：

其中表示关键词的typography，表示修改后的文本指令。

3.2 使用LLM放大图像有害性

此前的实验表明，增强图像的有害性可以诱导MLLM生成有害的文本输出。因此，我们使用扩散模型生成一个和文本指令描述的场景相关的有害图片，并将其拼接在此前的上。此外，我们还使用LLM作为prompt优化器，通过多轮迭代扩散模型的prompt进一步提高生成图像的有害性。

具体而言，我们首先使用ChatGPT将有害指令转换为扩散模型的prompt形式，之后使用PixArt-作为图像生成模型。我们使用图像的caption的有害性作为图像有害性的代理，使用GPT-4对其打分。最后我们将GPT-4作为攻击模型，根据目前的图像生成prompt、图像caption、有害性分数等信息修改prompt，使图像有害性进一步提高。优化过程的伪代码如下图所示：

MLLM的生成过程现在可被描述为：

其中是优化后的有害图像。

3.3 通过梯度更新放大图像有害性

已有工作证实了通过梯度更新构建的对抗图片可以有效越狱MLLM。为了进一步提高攻击的有效性，HADES也构造了对抗图片并将它们和此前的图片结合在一起。

具体而言，HADES将对抗图片拼接在此前图片的最上端。这种做法受到了MLLM处理图像内容方式的启发。MLLM的图像输入首先经过一个图像编码器，之后通过映射层被投影到LLM的表示空间。因此，MLLM内部的图像实际上可以被看作一组视觉tokens，共同组成了一个视觉prompt。因此，我们可以将诱导模型生成有害内容的对抗图片类比为文本侧的越狱prompt（例如Do Anything Now）。这种越狱prompt通常被放置在输入的开头，能够让模型遵循有害指令的同时不影响模型对指令内容的理解。鉴于二者的相似性，我们将对抗图片拼接在此前得到的图像的上方。此时MLLM的生成过程为：

其中是对抗图片。

关于对抗图片的生成，我们为相同有害类别下的所有指令生成一张共同的对抗图片。开始时，被初始化为一张空白图片。之后，我们构造了一个肯定性回复（例如Sure!和I can answer the question for you）的集合并从中随机选择一条作为期待的答复。之后我们计算目标模型的输出和期待答复之间的交叉上损失，并使用梯度更新。优化过程可被描述为：

是中的一条回复。

4. 实验

4.1 实验设置

关于评测模型的选择，我们继续选择了GPT-4V和Gemini Pro Vision作为闭源模型的代表，开源模型方面则选择了LLaVA-1.5, LLaVA-1.5 LoRA和基于LLaMA-2-Chat的LLaVA。由于开源模型的OCR能力还存在一定局限性，我们向它们重复提问多次知道模型的回复中显式包含了被text-to-image pointer替代的关键词或者达到尝试次数上限。我们设置了4种不同的评测设置：

Typ imag：使用原始指令和对应的测试MLLM。
+Text-to-image pointer：使用经过text-to-image pointer修改后的指令和测试MLLM。
+Opt image：使用和拼接后的和测试MLLM。
+Adv image：使用和拼接后的、和测试开源的MLLM。

4.2 实验结果

实验结果如下表所示。

表中结果显示，HADES显著提高了所有开源和闭源MLLM的ASR。具体而言，三个LLaVA系列的模型的ASR均超过了80%。而闭源的Gemini Pro Vision也达到了71.60%的ASR。GPT-4V的表现最好，ASR为15.07%。在所有有害类别中，Animal和Self-Harm的ASR分数相对较低。

+Text-to-image pointer设置下，不同模型的ASR变化结果并不一致。LLaVA(+6.53%), Gemini Pro Vision(+16.93%)和GPT-4V(+1.47%)的ASR均有提升，而LLaVA-1.5(-7.47%)和LLaVA-1.5(-14.13%)的ASR有所降低。我们认为ASR降低到原因在于：1. 模型的OCR能力不足。模型若不能够准确识别typography中的有害关键词，就不能理解指令的有害意图，从而产生有害回复。而OCR能力较强的闭源模型在该设置下ASR均有提升。2. LLM的欠对齐。该设置旨在绕过MLLM在文本段的对齐，因此其效果在基于对齐效果一般的LLM构建的MLLM上的提升空间较小（LLaVA-1.5基于Vicuna v1.5构建）。

+Opt image设置下，的引入显著提高了ASR，例如LLaVA(+33.86%)和Gemini Pro Vision(+37.20%)。此外，帮助缓解了此前LLaVA-1.5等模型面临的指令理解错误问题。我们认为这是由于描述的是和指令内容高度相关的场景，从而为模型提供了额外的上下文，帮助其准确理解攻击意图。

最后，在+Adv image设置下，HADES进一步提高了所有开源模型的ASR。即使是LLaVA这种基座模型经过RLHF对齐的MLLM，HADES也取得了82.53%的ASR。此外，HADES还进一步提高了在此前设置下较难攻破的有害类别的ASR。例如在LLaVA上，Animal类的ASR从51.33%提高至76.00%。

4.3 进一步分析

图像有害性优化的有效性我们测试了随优化步数上升的ASR变化趋势，如下图所示。可以发现随着优化步数的提高，ASR也逐渐提高，并在第5步逐渐接近收敛。

对抗攻击的可迁移性我们分别测试了完整版的HADES的跨模型和跨指令类别的迁移性。对于前者，我们使用在一个模型上训练得到的图片攻击其他模型，对于后者，我们使用在一个有害类别上训练得到的图片攻击其他有害类别，结果如下图所示。从图中可以看出HADES具有较好的可迁移性，并且这种可迁移性在一些类别间更为突出，例如Self-Harm, Violence和Animal以及Privacy和Financial。这可能是由于这些类别内部的有害指令拥有相似的语义上下文，例如前者经常包含物理层面的有害动作（hit, kill），而后者更关注一些抽象的概念（eavesdrop, forge）。

越狱案例分析我们进一步分析了Gemini Pro Vision和GPT-4V中的越狱案例，并发现它们大多与MLLM的不同能力相关联：1. OCR能力。MLLM首先识别出中的词汇，之后遵循有害指令。2. Captioning能力。MLLM首先描述图像中的有害场景，之后遵循有害指令。3. Instruction Following能力。MLLM直接遵循有害指令。每种能力对应的例子和统计数据如下图所示。

我们认为这些例子说明MLLM的多模态能力和其无害性对齐存在一定的冲突，其跨模态微调阶段可能导致了某种“逆对齐税”，即在提升模型多模态能力的同时破坏其对齐表现。因此，后续工作可以考虑在跨模态微调阶段加入更多安全数据使得MLLM能够抵御图像侧的攻击，同时保持其多模态能力。

5. MLLM安全性对齐的初步探索

我们还对如何防御HADES等针对MLLM的图像侧的攻击方法进行了初步的探讨。在越狱案例的分析中我们发现，许多越狱案例和模型的OCR和Captioning能力相关。我们认为这是由于MLLM在跨模态微调阶段缺少对齐数据。为此，我们构造了一个包含无害和有害数据的指令集来进一步微调MLLM。

该指令集包含了OCR和Captioning两类任务。每条指令都是一个三元组，其中为指令，为图片，为回复。对于OCR任务，我们使用了HADES中+Text-to-image pointer下的图片和指令构建有害指令。为了让模型保有OCR能力的同时又能够拒绝有害指令，我们将设置为“The object/concept/behavior in the image is..., but I can not answer harmful quesions.”。对于，我们使用相同的图片，但使用ChatGPT将图片中的关键词拓展为一个无害指令并让其做出无害回复。对于Captioning任务，由LLaVA-150K指令集中的captioning数据组成。而首先从此前我们生成的中筛选有害性分数大于5的图片，之后将设置为中相同的要求模型描述图片的指令，最后将设置为"Sorry, I can not generate harmful captions"。

我们基于HADES的前50%的数据构造了2286条指令，并使用后50%的数据进行评测。我们打乱所有指令，同时保证每条有害指令一定紧邻它对应的无害指令。我们希望通过这种方式让MLLM学会区分有害和无害的图片相关指令。我们使用这部分指令对LLaVA-1.5使用LoRA进行微调，我们将得到的LoRA称为contrastive harmlessness LoRA。

我们对原始版本和训练后的LLaVA-1.5进行了评测，结果显示添加了contrastive harmlessness LoRA的LLaVA-1.5的安全性有显著提高，其ASR明显下降(89.53% vs. 5.07%)。我们的方法也并不会明显影响其通用多模态能力，添加LoRA后的模型在LLaVA-Bench上的结果和原始模型相差不大。