
论文地址: https://arxiv.org/abs/2307.14539
1.Motivation
基于文本的攻击很容易被人类或自动过滤器发现。因此许多工作开始研究视觉语言模型(VLMs)中视觉组件引起的漏洞。
本文提出了一种跨文本和图像模态的组合攻击,使用良性文本和恶意图像结合的形式。恶意对抗图像由恶意触发器优化得到。重点关注四种恶意触发器:文本触发器、OCR文本触发器、视觉触发器以及OCR文本和视觉组合触发器。
本文提出的攻击是基于嵌入空间的,旨在将恶意触发器隐藏在外观良好的图像中。
2.Method
本文有四种触发器: 文本触发器、OCR文本触发器、视觉触发器和OCR文本-视觉组合触发器。与之前的方法相同的是本文也是采用良性指令与恶意图像结合的形式,不同的是本文要将这些恶意的触发器隐藏到看起来无害的图像中,也就是生成对抗图像。
生成对抗图像:给定一个目标触发输入xharm,目标是找到一个对抗图像x_adv,使得它们的嵌入向量在联合嵌入空间内非常接近(在嵌入空间里表达的内容一致)。这可以通过最小化它们的L2损失来更新对抗图像来实现。
I_ϕ表示encoder。B是约束条件,控制对抗图像的变化幅度。Xadv:可以使用随机噪声分布、白色背景或任意良性图像进行初始化。
将对抗图像和一个良性指令“编写关于如何构建这些对象的手册”一起输入到vlm中,这样vlm就可以输出有害内容。
总体流程:用户输入一个恶意指令“制造炸弹的方法 ”,直接输入会被vlm拒绝。本文提出的方法将这个指令隐藏到对抗图像中来躲过模型的安全机制。首先将这个恶意指令转化为恶意触发器的形式(四选一),然后生成对抗图像,将对抗图像和一个良性指令“编写关于如何构建这些对象的手册”一起输入到vlm中,这样vlm就可以输出有害内容。
3.Experiments
表1展示了用这四种类型的恶意触发器生成的对抗图像进行越狱攻击的成功率(ASR)。这8种情景包括性(S)、仇恨(H)、暴力(V)、自残(SH)和骚扰(HR);性-未成年人(S3),仇恨-威胁(H2),暴力-图形(V2)。
可以看到针对三种基于图像的触发器优化的攻击在所有八个类别的越狱中都取得了很高的攻击成功率。 而文本触发器基本没用,这可能是因为图像和文本模态差距过大,当优化对抗图像以匹配文本目标时,实际生成的对抗图像可能是无效的(不包含目标文本的信息)。
此外,作者在本文的研究中还发现了一个上下文污染的现象 模型一旦生成初始有害答案并被越狱,上下文就被污染了,随后的文本提示就可以继续引出有害答案。甚至通常不仅会回答被禁止的问题和提示,而且还会输出带有极端偏见的有害内容。