Steering Away from Harm: 远离危害：一种针对视觉语言模型防御越狱攻击的自适应方法

本文链接：https://blog.csdn.net/Together_CZ/article/details/144428069

这篇文章提出了一种名为ASTRA的高效且有效的防御框架，用于保护视觉语言模型（VLM）免受越狱攻击。主要内容如下：

背景与挑战：
- 视觉语言模型（VLMs）在面对对抗性攻击时可能会生成有害内容，尤其是由于其视觉能力带来的新漏洞。
- 现有防御方法（如输入预处理、对抗训练和基于响应评估的方法）成本高昂，难以在实际部署中应用。
ASTRA框架：
- 自适应引导：通过自适应引导模型远离对抗性特征方向，抵抗VLM攻击。
- 引导向量构建：通过图像归因识别与越狱最相关的视觉标记，构建引导向量。
- 自适应激活引导：在推理时通过激活校准和投影，减少对抗性输入的有害输出，同时保持良性输入的性能。
实验与结果：
- ASTRA在多个模型和基线上的广泛实验中展示了最先进的性能和高效率。
- 与现有VLM防御和LLM引导方法相比，ASTRA在防御基于扰动和基于结构的攻击方面表现出色。
- ASTRA具有良好的可迁移性，能够防御未见过的攻击和不同分布的对抗性图像。
结论：
- ASTRA通过自适应引导模型远离对抗性特征方向，有效抵抗VLM攻击，展示了高效性和实用性。
- 该工作为未来在LLM/VLM安全性中应用更复杂引导的研究提供了启发。

ASTRA通过自适应引导和图像归因，提供了一种高效且有效的防御方法，能够有效保护VLM免受越狱攻击。这里是自己的论文阅读记录，感兴趣的话可以参考一下，如果需要阅读原文的话可以看这里，如下所示：

摘要

视觉语言模型（VLMs）在面对对抗性攻击时可能会生成意外且有害的内容，特别是由于其视觉能力带来了新的漏洞。现有的防御方法，如输入预处理、对抗训练和基于响应评估的方法，由于成本高昂，通常在实际部署中不切实际。为了应对这一挑战，我们提出了ASTRA，一种高效且有效的防御方法，通过自适应引导模型远离对抗性特征方向，以抵抗VLM攻击。我们的关键步骤包括找到代表有害响应方向的可迁移引导向量，并在推理时应用自适应激活引导以消除这些方向。为了创建有效的引导向量，我们随机从对抗性图像中删除视觉标记，并识别那些与越狱最强烈相关的标记。这些标记随后用于构建引导向量。在推理过程中，我们执行自适应引导方法，涉及引导向量与校准激活之间的投影，从而在良性输入上几乎没有性能下降，同时在对抗性输入下强烈避免有害输出。在多个模型和基线上的广泛实验证明了我们在缓解越狱风险方面的最先进性能和高效率。此外，ASTRA展示了良好的可迁移性，能够防御设计时未见过的攻击（即基于结构的攻击）和来自不同分布的对抗性图像。官方项目地址在这里，如下所示：

1 引言

视觉语言模型（VLMs）[7, 10, 24, 55]因其卓越的视觉语言认知能力而引起了工业界和学术界的广泛关注[35]。尽管应用广泛，VLMs仍然面临安全性挑战，这是由于其底层语言模型的固有限制。此外，整合视觉输入可能会开辟新的对抗性攻击面。这些关于VLM的安全问题导致了大量关于越狱攻击和防御策略的研究[14, 42, 48, 56]。

VLM中的越狱攻击旨在通过使用越狱图像-文本对[19, 20, 22, 37, 43, 46]诱导模型生成有害响应。这些越狱攻击可以分为两类：（i）基于扰动的攻击，通过创建对抗性图像来提示VLM生成有害响应[2, 34, 37, 41]；（ii）基于结构的攻击，通过排版将恶意查询嵌入图像中，以绕过VLM的安全对齐[14, 26]。针对这两种攻击的反制措施已被广泛探索：基于输入预处理的方法[33]或对抗训练[21]已被证明对基于扰动的攻击有效。然而，这些防御方法需要大量的计算资源来净化图像或微调模型。基于响应评估的防御方法[15, 48, 53]已被提出用于基于结构的攻击，但它们都需要多次运行模型推理以潜在地识别有害输出，这大大增加了实际部署的成本。

在本工作中，我们认为高效的防御框架不应在训练期间或推理期间生成多次响应时需要大量计算资源。受最近在大语言模型（LLM）中激活引导的进展[4, 17, 39, 47]的启发，我们提出了ASTRA，一种通过自适应引导模型远离对抗性特征方向的高效且有效的防御方法，通过图像归因激活来抵抗VLM攻击。我们发现，简单地从LLM中借鉴方法来保护VLM在经验上并不可行，因为从文本和视觉数据中获得的引导向量之间存在不匹配，这促使我们采用图像归因方法。

具体来说，ASTRA包括两个步骤：通过图像归因构建引导向量，以及在推理时进行自适应激活引导。我们旨在构建代表有害响应方向的引导向量。

2 相关工作

VLM上的越狱攻击。 越狱攻击旨在通过改变提示来诱导模型回答禁止的问题。除了基于LLM的文本越狱策略[16, 27, 51, 58]，额外的视觉输入为VLM攻击暴露了新的攻击面。主要有两种类型的攻击：基于扰动的攻击和基于结构的攻击[48]。基于扰动的攻击通过创建对抗性图像来绕过VLM的安全防护[2, 6, 37, 41, 50, 54]。基于结构的攻击通过排版或文本到图像工具（如Stable Diffusion [40]）将有害内容转换为图像，以诱导模型生成有害响应[14, 23, 25, 26, 29]。我们在两种类型的攻击上研究我们的防御。

VLM的防御。 研究人员探索了两个防御方向：训练时对齐和推理时对齐。训练时对齐通过监督微调（SFT）[8, 22, 56]或训练一个有害响应检测器来保护VLM[36]，所有这些都需要大量高质量的标注和足够的计算资源来训练。推理时对齐相对更节省资源。一些策略设计了对齐提示来防御攻击[14, 49]。其他方法构建了一个响应评估管道来评估VLM响应的有害性，通常随后进行迭代优化以确保安全输出[15, 53]。另一种方法是干扰输入查询并分析响应一致性以识别潜在的越狱尝试[53]。然而，这些方法仍然在推理时间上引入了不小的成本，因为需要生成多次响应。

LLM的激活工程。 许多语言模型的激活空间似乎包含可解释的方向，这些方向在推理过程中起着至关重要的作用[5, 32]。激活工程的基本思想是识别激活空间中与某些语义相关的方向（即引导向量），然后在推理过程中沿该方向移动激活。Turner等人[45]通过在transformer模型中特定层和标记位置的一对提示的中间激活差异来定位方向。Rimsky等人[39]构建了一个对比对数据集，而不是使用单一的对比对来获得引导向量。Wang等人[47]从对齐良好的语言模型中定位“安全”引导向量。Ball等人[4]研究了不同类型的越狱模板是否采用不同的机制来触发模型表示空间中的不安全区域。其他一些方法尝试学习表示空间中的高级概念，并使用它们来控制输出[17, 57, 59]。然而，大多数先前的工作集中在利用文本提示来构建引导向量，这在某些情况下可能无法有效地引导VLM。

3 方法论

在本工作中，我们提出了ASTRA，一种通过自适应引导（第3.2节）模型远离对抗性方向的高效且有效的防御方法，通过图像归因激活（第3.1节）来抵抗VLM攻击。

构建引导向量

并非所有来自对抗性图像的视觉标记都对越狱有相同的贡献。我们旨在定位某些视觉标记，这些标记更有可能通过图像归因诱导越狱。通过这种方式，我们可以隔离与越狱相关信息最相关的表示。

对抗性图像归因。 图像归因旨在找到更有可能触发指定响应的输入视觉标记。在我们的案例中，我们旨在定位通过PGD攻击生成的对抗性图像中更有可能诱导越狱的视觉标记。

自适应激活引导

激活引导的关键思想是使用引导向量在推理过程中将语言模型的输出分布引导到指定行为。在构建具有有害语义的引导向量后，我们努力通过引导LLM的激活来消除这些成分。

不幸的是，简单地应用固定的缩放系数来修改语言模型的输出[4, 39, 45, 47]作为防御并不可行，因为在良性情况下会导致显著的实用性性能下降[1]。主要问题是先前工作中使用的线性引导无条件地改变激活，无论输入是否导致有害输出（图2(a)）：

我们在图2 (c1) - (c3)中展示了自适应引导方法的完整过程。它可以帮助减少对抗性场景中的恶意输出，同时在良性情况下保持性能。在推理过程中，我们仅对新生成的标记的激活应用引导，保持输入标记的激活不变。

4 实验

在本节中，我们进行实验以回答以下研究问题：

• RQ1：ASTRA在对抗性场景中与VLM防御基线和LLM引导方法相比表现如何？我们的防御是否可迁移到不同分布的输入和不同类型的攻击？
• RQ2：ASTRA在良性情况下的表现如何？我们能否在不损害实用性的情况下减少模型的危害性？
• RQ3：ASTRA设计选择的影响是什么？所有组件（如图像归因、激活校准）是否对最佳性能必要？

4.1 实验设置

引导向量构建。 我们从ImageNet [11]中采样不同类别的良性图像，并应用PGD攻击[30]生成16个对抗性图像用于引导向量构建。扰动半径ϵ设置为{16/255, 32/255, 64/255, unconstrained}。PGD攻击配置的详细信息见附录7.1。

评估数据集。 我们在两种场景下评估防御性能：分布内（ID）和分布外（OOD）。对于ID场景，我们选择基于扰动攻击的Toxicity和Jailbreak设置。我们从ImageNet [11]中采样55个良性图像，并应用PGD攻击[30]生成25个和30个对抗性图像分别用于验证集和测试集。扰动半径ϵϵ设置为{16/255, 32/255, 64/255, unconstrained}。对于OOD场景，我们使用MM-SafetyBench [25]评估未见攻击（即基于结构的攻击）的可迁移性能。此外，我们收集了12张与用于引导向量构建的图像分布不同的图像（如条纹、素描、绘画等），并使用PGD攻击构建测试用例。

对于基于扰动攻击的文本提示，我们从RealToxicityPrompt [13]中选择50个和100个查询分别用于Toxicity设置的验证集和测试集。我们从Advbench [58]和Anthropic-HHH [12]中选择110个和110个查询分别用于Jailbreak设置的验证集和测试集。所有测试查询均与PGD攻击中使用的问题-答案对无关。在评估过程中，我们将每个文本提示与随机对抗性图像配对。

对于良性场景中的实用性性能评估，我们采用了两个已建立的基准数据集，MM-Vet [52]和MM-Bench [28]。数据集统计的详细信息见附录7.1。

评估指标。 对于Toxicity设置，我们遵循Qi等人[37]的方法，使用Detoxify分类器[18]计算Toxicity分数。我们报告测试集上Toxicity属性的平均分数。分数范围从0（最不毒）到1（最毒）。对于Jailbreak设置，我们选择HarmBench [31]中的分类器来计算基于扰动和基于结构的越狱的攻击成功率（ASR）。

基线。 我们将ASTRA与三个VLM防御基线和两个LLM引导方法进行比较。对于VLM防御，self-reminder [49]是一种基于系统提示的防御，JailGuard [53]多次扰动输入图像并计算响应之间的差异，ECSO [15]自适应地将不安全图像转换为文本以激活预对齐LLM的内在安全机制。对于LLM引导，我们遵循Rimsky等人[39]和Ball等人[4]的方法，使用拒绝语义和文本越狱模板构建引导向量。

模型与实现细节。 我们在三个流行的开源VLM上进行所有实验，包括Qwen2-VL-7B [3]、MiniGPT-4-13B [55]和LLaVA-v1.5-13B [24]。我们将删除次数N设置为96，k设置为15。对于α的选择，请参见附录7.6。引导层l对于13B模型为20，对于7B模型为14。聊天配置使用温度0.2和p=0.9用于LLaVA-v1.5和Qwen2-VL，温度1和p=0.9用于MiniGPT-4。

4.2 防御性能比较（RQ1）

表1、2和8（在附录中）报告了我们在基于扰动攻击的Toxicity和Jailbreak设置中的防御性能。粗体表示最佳防御性能（由Toxicity分数或ASR表示）。

与现有VLM防御的比较。 如表1、2、8所示，大多数VLM防御难以一致地保护模型免受不同ϵϵ的基于扰动攻击。虽然大多数现有的VLM防御基于预处理或后处理模型输入或输出，但我们的自适应引导方法有效地引导内部模型激活远离有害内容，在几乎所有情况下实现了最先进的性能。

此外，我们在表4中报告了每个VLM防御基线的平均推理时间每标记。我们强调了两个关键优势，导致高效率：（1）ASTRA不需要重新训练或微调模型，构建引导向量的过程（第3.1节）廉价且简单。相比之下，基于输入预处理的方法[33]需要使用扩散模型对每个输入图像进行去噪，对抗训练[21]需要更新整个模型，这两种方法与我们的方法相比成本都很高。（2）ASTRA在部署防御时不影响推理时间——第3.2节中的引导步骤几乎不产生成本。如表4所示，ASTRA比需要多次推理通过的方法（如JailGuard [53]和ECSO [15]）更快。虽然JailGuard [53]可以有效防御基于扰动的攻击，但它需要生成九次响应来部署防御，成本可能非常高。虽然self-reminder [49]不影响推理时间，但它未能保护VLM免受大多数基于扰动攻击。

总体而言，这些实证结果验证了我们的框架在防御VLM基于扰动攻击方面的有效性和效率。

与LLM引导的比较。 我们在表1、2、8中的结果表明，直接将LLM的引导技术适应到VLM防御中是无效的。虽然注入拒绝语义的引导向量可以将输出分布引导到拒绝并降低有害响应率，但这种方法有一个关键缺点：它不加区分地增加了所有输入的拒绝率，这降低了模型的实用性[1]。此外，我们的实验表明，使用文本越狱模板的引导不足以对抗基于图像的扰动攻击，这表明文本和视觉越狱利用了不同的机制来绕过VLM的安全防护。这些发现强调了开发在视觉表示级别上操作的VLM防御的重要性。

自适应攻击。 自适应攻击[44]是评估防御有效性的关键评估程序，当防御机制对攻击者已知时。在此设置中，我们假设攻击者可以访问模型参数、引导向量、校准激活和引导系数α，并使用PGD攻击生成30个专门针对受保护模型的对抗性图像。如表3所示，ASTRA在大多数情况下继续为VLM提供强大的保护。这些发现强调了我们的方法作为实际和弹性防御机制的潜力。

可迁移性。 在现实世界中，未知的分布和类型的对抗性图像突显了对鲁棒且可迁移的防御框架的需求。为了评估我们引导向量的可迁移性，我们构建了两个测试场景：分布内（ID）和分布外（OOD）情况。

在ID场景中，我们评估从具有特定ϵ值的对抗性图像中导出的引导向量是否可以防御具有不同ϵϵ级别的对抗性图像。用于引导向量构建和测试评估的对抗性图像来自ImageNet [11]中的不同类别，确保相似的图像分布。如图3和6所示，结果证明了我们的引导向量在防御不同ϵ值的对抗性攻击方面的有效性。我们还报告了Avg.性能，其中我们取自对抗性图像中ϵ值为{16, 32, 64, unconstrained}的引导向量的平均值。尽管ϵ= unconstrained的防御在对抗基于扰动攻击的时效果不佳，但其余防御验证了ASTRA在不同强度的PGD攻击中的可迁移性。

在OOD场景中，我们测试从的Jailbreak对抗性图像中导出的引导向量是否可以泛化到不同类型的攻击。具体来说，对于基于结构的攻击，我们使用MM-SafetyBench [25]构建OOD基准测试；对于基于扰动的攻击，我们从互联网上收集了12张与用于引导向量构建的图像特征（如条纹、素描、绘画等）高度不同的图像。表5中的结果确认了我们的框架在基于结构和基于扰动的OOD设置中的有效性，表明在实际部署中具有巨大的潜力。这种令人印象深刻的OOD可迁移性可能源于引导向量封装了一个持久的有害特征方向，无论有害行为是如何触发的。尽管模型可以通过不同类型的攻击被越狱，但最终在特征空间中存在一个代表有害性的方向。通过准确地引导远离这个方向，我们可以有效地保护模型免受各种类型的越狱。

4.3 一般实用性（RQ2）

在第4.2节中，我们的框架展示了其在防御VLM越狱方面的有效性。此外，我们需要确保我们的受保护模型在良性场景中保持实用性性能，并在对抗性场景中生成有效的响应。

实用性性能。 我们在MM-Vet [52]和MM-Bench [28]数据集中计算良性场景评估的实用性分数，并在对抗性场景评估中计算困惑度。有关实用性分数的详细描述，请参见附录7.1。如表6所示，我们的受保护模型在良性场景中与未防御模型相比展示了显著的实用性性能。这些比较表明，我们的防御在良性输入上几乎没有性能下降。我们归功于自适应引导方法，它通过计算语言模型的校准激活和引导向量之间的投影来缓解实用性下降，从而避免了固定引导系数的缺点。在对抗性上下文中，ASTRA的困惑度仍然在合理范围内，表明我们的受保护模型始终如一地提供有效的、无害的响应。附加案例见附录7.4。