【综述专栏】大型视觉语言模型攻击综述：资源、进展与未来趋势！

最新推荐文章于 2025-05-03 09:07:35 发布

人工智能学家

最新推荐文章于 2025-05-03 09:07:35 发布

阅读量206

点赞数

文章标签：语言模型人工智能自然语言处理

原文链接：https://mp.weixin.qq.com/s?__biz=MzIwOTA1MDAyNA==&mid=2650010325&idx=3&sn=d05eb7caddacf622b5e99b5660f4319b&chksm=8eb2d782a0c02dfd74b67573cf7ee49608e6e63455e35cef612b94eb0ae9c4f6406154fe9938&scene=126&sessionid=0

版权

来源：人工智能前沿讲习

在科学研究中，从方法论上来讲，都应“先见森林，再见树木”。当前，人工智能学术研究方兴未艾，技术迅猛发展，可谓万木争荣，日新月异。对于AI从业者来说，在广袤的知识森林中，系统梳理脉络，才能更好地把握趋势。为此，我们精选国内外优秀的综述文章，开辟“综述专栏”，敬请关注。

链接：https://arxiv.org/abs/2407.07403

近年来，随着大型模型的显著发展，大型视觉-语言模型（LVLMs）在各种多模态理解和推理任务中展示了卓越的能力。相比于传统的大型语言模型（LLMs），由于更接近多资源的现实世界应用和多模态处理的复杂性，LVLMs 展示了巨大的潜力和挑战。然而，LVLMs 的脆弱性相对较少被探索，在日常使用中可能存在潜在的安全风险。在本文中，我们对现有的各种 LVLM 攻击形式进行了全面的回顾。具体来说，我们首先介绍了针对 LVLMs 攻击的背景，包括攻击的初步知识、攻击的挑战和攻击资源。然后，我们系统地回顾了 LVLM 攻击方法的发展，如操纵模型输出的对抗攻击，利用模型漏洞进行未授权操作的越狱攻击，设计提示类型和模式的提示注入攻击，以及影响模型训练的数据投毒攻击。最后，我们讨论了未来有前景的研究方向。我们相信，我们的调查为 LVLM 脆弱性的现状提供了洞见，激励更多研究人员探索和缓解 LVLM 开发中的潜在安全问题。最新的 LVLM 攻击论文会在 https://github.com/liudaizong/Awesome-LVLM-Attack 持续收集。

大型视觉-语言模型（LVLMs）在各种多模态下游任务中取得了显著成功，并展示了很有前途的能力，如文本生成图像 [91], [102], [104]、视觉问答 [2], [61], [115] 等等，这得益于数据量、计算资源和模型参数数量的增加。通过进一步利用大型语言模型（LLMs）[56], [63], [71], [94], [112], [143] 的强大理解能力，最近的 LVLMs [33], [75], [144] 基于 LLMs 展示出在解决复杂视觉-语言任务方面的优异表现，利用了适当的人类指令提示。尽管 LVLMs 具有显著的能力，但其复杂性和部署的增加也暴露了其面临的各种安全威胁和脆弱性，使得对这些模型攻击的研究成为一个重要的研究领域。

一般来说，LVLMs 通过使用预训练的视觉编码器与语言模型结合，具备处理视觉信息和自然语言理解的能力。由于这种多模态特性，LVLMs 特别容易受到攻击，因为多模态整合不仅放大了它们的脆弱性，还引入了在单模态系统中不存在的新攻击向量。例如，视觉领域中的对抗样本，通过细微改变图像来欺骗模型，可以扩展到多模态场景中，在图像和文本输入都被操纵的情况下。类似地，针对语言理解组件的攻击，如恶意设计的提示词，当与视觉输入结合时，可以破坏模型输出的完整性。因此，有必要探索 LVLM 模型的潜在攻击的安全性。

在过去的两年中，有很多关于 LVLM 攻击的论文提出。然而，如图 1 所示，现有的 LVLM 攻击发展多种多样，从对抗攻击、越狱攻击、提示注入和数据投毒/后门攻击到更微妙的形式，如偏见操纵和隐私泄露。具体来说，对抗攻击是故意扰乱输入以导致错误输出，可能导致错误分类或错误的图像描述，这在自动驾驶 [88], [106], [135] 或医疗诊断 [11], [68] 等应用中构成显著风险。越狱攻击利用模型的弱点绕过其预定限制，可能导致执行未授权命令或访问敏感信息。提示注入攻击通过操纵模型的提示输入来改变其行为或输出，这在依赖精确和准确响应的系统中特别危险。数据投毒，即篡改训练数据，可能破坏模型的性能和可靠性。因此，对现有 LVLM 攻击进行全面系统的回顾是必要的。

进行这项调查的动机。在过去的两年中，提出了大量 LVLM 攻击方法，并取得了相当的对抗性能。然而，这些方法的可用性很容易使研究人员或从业者在尝试选择或比较适用于手头具体问题的算法时感到困惑。因此，有必要编写一篇全面系统的调查，以供参考。尽管有少量针对大模型攻击的相关调查论文，但我们在表 I 中列出了这些论文，并认为它们未能从完整的视角总结现有 LVLM 攻击方法的全部类别和详细发展。特别是，Chowdhury 等人 [29] 通过提供不同的文本提示修改策略，对 LLM 攻击进行了调查，但在多模态场景中缺乏对更复杂 LVLM 的普遍性。刘等 [77] 是第一篇讨论 LVLM 研究高层次安全问题的调查，但该文中提出的分类相对不完整和粗略。Fan 等 [38] 只总结了现有的基于图像的 LVLM 攻击方法，无法很好地涵盖各种模态类型的 LVLM 攻击方法（如文本提示注入）。因此，缺少对现有 LVLM 攻击方法的全面回顾。

我们希望通过本调查论文能够完整系统地梳理现有的 LVLM 攻击方法，并以清晰的方式呈现出来。特别是，我们的调查涵盖了 LVLM 攻击的最新进展。首先，我们仔细整理了准备特定类型 LVLM 攻击的基本背景知识。然后，我们全面总结了不同类型的 LVLM 攻击方法，通过抽象出所有方法的共性，建立一个更全面的分类体系，并提出更具体和有前景的未来研究方向。通过这样的视角，信息丰富的从业者可以自信地评估各种 LVLM 攻击的权衡，并在使用一系列技术设计所需的 LVLM 攻击时做出明智的决策。同时，系统开发者也可以认识到现有 LVLM 攻击的局限性，并设计相应的防御策略，以提高模型的鲁棒性。

进行这项调查的贡献。我们的调查主要贡献可以总结为三点：

据我们所知，这是第一篇全面概述 LVLM 攻击现状的调查，包括单模态和多模态攻击方法。我们对不同类型的攻击进行分类和检查，突出了它们的方法、影响和所利用的潜在漏洞。通过揭示这些挑战，这项调查强调了强大安全措施的重要性以及在不断变化的威胁中保护 LVLMs 的持续进步的必要性。
除了总结 LVLM 攻击方法外，我们还仔细提供了通用 LVLM 攻击的详细背景：(1) 如何定义 LVLM 攻击？(2) 实施 LVLM 攻击常用的工具有哪些？(3) 应如何使用和处理 LVLM 数据？(4) 如何在不同设置下评估攻击性能？
提供了全面的方法比较和讨论，帮助读者更好地理解相应的攻击架构。我们还概述了 LVLM 攻击的潜在未来方向。

我们的调查组织如下。第二部分，我们提供了通用 LVLM 攻击的详细背景，包括攻击初步知识、现有挑战和攻击资源。第三部分将现有攻击方法分类为四类，即对抗攻击、越狱攻击、提示注入攻击和数据投毒/后门攻击，并讨论它们的优缺点。第四部分，我们概述了未来的研究方向。最后，第五部分总结了本文。

方法

现有的 LVLM 攻击者通常可以分为四类：对抗攻击、越狱攻击、提示注入攻击和数据投毒/后门攻击。对于对抗攻击，它们利用梯度优化噪声，以一种对人类来说通常是不可察觉的方式扰乱输入数据，但却导致模型产生不正确或不理想的输出。这些扰动是精心设计的，旨在利用模型的脆弱性。对于越狱攻击，它们利用模型中的弱点绕过其预定的限制和控制。这种类型的攻击可能导致模型执行未经授权的命令、访问受限数据或执行超出其设计能力的操作。对于提示注入攻击，它们通过操纵模型的输入提示来以意想不到的方式改变其行为或输出。通过注入恶意或误导性提示，攻击者可以引导模型生成不正确、偏见或有害的响应。对于数据投毒/后门攻击，攻击者篡改训练数据以破坏模型的性能和可靠性。在这些攻击中，恶意数据被插入训练数据集中，导致模型学习和传播错误的模式。特别是，后门攻击通常涉及在数据训练中嵌入隐藏触发器。当触发器被激活时，会导致模型以特定和有害的方式行为。基于上述攻击者的动机和架构，我们提出了图 2 中的分类法来分类 LVLM 攻击方法。接下来，我们将按照此分类法回顾现有的研究工作，并讨论每种方法类别的特征。

未来方向

尽管当前的研究已经识别并探索了大型视觉-语言模型（LVLMs）上的各种攻击方法，但我们期望未来在潜在 LVLM 攻击方面取得更多进展。未来的研究应深入了解和开发新颖的攻击方法，以全面评估和提高这些模型的鲁棒性。未来研究的关键领域包括：

现有的 LVLM 攻击者通常依赖于受害模型的详细先验知识，并且是任务特定的，导致设计扰动的成本显著。然而，大多数现实世界的 LVLM 应用不会向用户公开其模型细节。
大多数 LVLM 攻击者生成针对特定受害模型的对抗样本，这可能倾向于过拟合目标网络，但一旦转移到攻击不同的受害模型时，很难保持恶意性。
在现有的 LVLM 攻击中，扰动分别隐藏在不同的模态中。然而，多模态扰动之间的相互作用仍然未被充分探索。
LVLM 模型严重依赖于训练数据的质量。因此，研究如何通过有针对性的操纵而无需直接的对抗输入来放大训练数据中的现有偏见是一个有前景的方向。
随着 LVLMs 日益复杂并集成到各种应用中，潜在攻击的复杂性也在增加。结合人类智能与 AI 能力为揭示和利用这些系统中的脆弱性提供了有力的方法。
现有的 LVLM 攻击者在不同的模型和数据集上使用不同的指标评估其方法，使得研究人员难以进行统一比较。因此，有必要开发全面的基准和评估工具，以评估不同攻击的质量。

在本节中，我们将描述以下主题。

A. 提高攻击的实用性现有的 LVLM 攻击方法严重依赖于先验模型知识，使得攻击的实用性较低。然而，在现实情况下，攻击者只能查询 LVLMs 以获得相应的输出结果，这使得在优化过程中很难在正确的优化方向上引导对抗扰动。此外，这些针对 LVLMs 的攻击者只能生成对抗样本来欺骗单个过程中的特定下游任务。因此，为了破坏不同的下游任务，他们必须为每个任务生成不同的对抗扰动，这会耗费大量时间和资源。因此，有必要设计一种通用扰动，通过仅查询 LVLM 模型来跨不同任务和样本使用。实现通用攻击的潜在解决方案是将先前基于图像的策略[20], [87] 应用于多模态任务。通过对多个任务和输入进行对抗训练通用扰动，攻击在各种 LVLM 模型中更具实用性。此外，为了处理梯度估计，可以采用硬标签策略[26], [27] 通过仅查询模型来获得梯度。

B. 自适应和可迁移攻击一种稳健的攻击应减少对特定受害网络的依赖，并更好地泛化到不同的网络。因此，研究对抗攻击如何在不同的 LVLMs 之间转移或随时间自适应也很重要。然而，现有的 LVLM 攻击者未能考虑这种特性，而是直接生成特定于某个受害模型的对抗样本。为了提高生成的对抗样本的可迁移性，我们建议几种设计思路：一方面，攻击者可以遵循集成学习[35], [97]，联合学习攻击多个 LVLM 模型。这样，梯度可以指向多个模型之间的全局对抗性方向。另一方面，有许多基于图像的工作[123], [125], [138] 被提出以提高对抗图像的可迁移性。通过适当地将这些策略应用于 LVLM 模型中的特定设计，攻击者也可以生成可迁移的对抗样本。总体而言，理解对抗样本在不同模型和任务之间的可迁移性有助于开发通用的攻击方法。

C. 跨模态对抗样本尽管在单个模态（视觉或语言）中设计对抗攻击取得了很大进展，但模态之间的交互仍未被充分探索。现有的攻击者通常将不同模态的扰动视为不同的，并分别设计它们。然而，这将导致扰动多模态输入之间的交互关系较少，并且容易被安全对齐系统识别。因此，未来的工作应探索新的方法，同时扰动视觉和文本输入并具有强关联性。这包括研究模态之间的交互和依赖关系，以创建更有效的跨模态攻击，从而躲避当前的防御。潜在的解决方案可以利用多键策略[118]或多模态对比学习[12]来增强多模态扰动之间的关系，以共同控制攻击。

D. 基于数据偏见的攻击现有的 LVLM 模型数据需求量大，需要大量完全标注的数据进行训练。因此，LVLMs 容易继承并甚至放大其训练数据中的偏见。未来的研究可以集中于理解、识别和缓解这些偏见，以确保公平和公正的结果。例如，可以开发偏见放大攻击[14], [85] 来研究如何通过有针对性的操纵放大训练数据中的现有偏见。这涉及创建利用这些偏见的输入，以生成偏斜或有害的输出，从而突出并加剧模型的内在弱点。具体来说，受此启发，我们可以首先研究偏见在训练和推理过程中如何通过 LVLMs 传播和放大，然后开发技术来创建利用和放大这些偏见的输入，以更好地了解其影响。此外，潜意识操纵攻击[141]也是一种有前景的方法，用于开发在没有直接对抗输入的情况下微妙地影响模型行为的方法，例如通过在训练期间引入不可察觉的偏见，影响模型在特定未预期方式中的决策过程。通常研究在训练期间如何引入微小且不可察觉的偏见，这些偏见仅在特定条件下显现。

E. 人工智能与人类协作的攻击现有的 LVLM 攻击完全基于数字环境开发。然而，除了模型的输入和输出，现实世界的应用还具有允许人与 LVLM 系统互动的能力。因此，结合人类智能与 AI 能力为实施攻击提供了有力的方法。这里，我们将简单介绍两种代表性的攻击视角：(1) 人机协作攻击[16], [60]：探索人类在环中的攻击策略的潜力，将人类专长与 AI 工具结合，以设计更复杂和有效的攻击。这涉及利用人类的直觉和创造力，识别和利用自动化方法可能遗漏的模型弱点。特别是，开发人类攻击者在 AI 工具的协助下迭代优化对抗输入的框架。这可以包括人类设计初始攻击向量，然后由 AI 系统优化以达到最大效果。(2) 社会工程与操纵[48], [86]：这种类型的攻击研究如何将社会工程技术与对 LVLMs 的技术攻击结合。它包括研究如何基于社会背景或用户行为设计操纵输入，以欺骗模型及其用户。

F. 综合基准和评估为了确保 LVLM 模型对各种攻击方法的鲁棒性和安全性，全面的基准和评估框架是必不可少的。这些框架不仅有助于评估 LVLMs 当前对攻击的抵御能力，还能指导开发更鲁棒的模型。未来在这一领域的研究可以集中在以下关键方面：(1) 标准化攻击基准[54]：开发全面的基准来评估各种攻击策略对 LVLMs 的有效性。这些基准应包括多种攻击类型、场景和指标，以提供模型鲁棒性的整体评估。(2) 持续评估框架[58]：开发持续集成和测试管道，定期评估 LVLMs 对最新已知攻击的抵御能力。这些管道应自动更新新的攻击方法和数据集，以确保模型持续进行鲁棒性测试。(3) 综合攻击分类法[19]：创建详细的分类法，根据攻击的特征进行分类，例如其目标模态（视觉、语言或两者）、执行方法（例如对抗样本、数据投毒、模型反演）及其影响。(4) 鲁棒性指标和评估标准[83]：开发和标准化量化 LVLMs 对各种攻击抵御能力的鲁棒性指标。这些指标应捕捉攻击的严重性以及模型在各种攻击下的性能。

通过在这些领域扩展研究，社区可以更深入地了解 LVLM 模型的脆弱性，并开发更有效的策略来评估和增强其安全性。这种前瞻性的方法对于确保 LVLMs 在各种现实应用中的安全可靠部署至关重要。

结论

总体而言，这篇综述论文全面概述了 LVLM 攻击的研究，旨在帮助研究人员了解该领域。首先，我们介绍了 LVLM 攻击的背景，包括一般 LVLM 攻击的初步知识、实施 LVLM 攻击的挑战以及当前的 LVLM 攻击资源，如数据集、模型和评估指标。有了这些先验知识，研究人员可以轻松开始探索，并迅速了解 LVLM 攻击。然后，我们总结并分类了现有的 LVLM 攻击文献，提出了一个新颖的分类法，即对抗攻击、越狱攻击、提示注入攻击和数据投毒/后门攻击，以帮助理清其发展脉络。最后，我们指出了几个有前景的 LVLM 攻击未来研究机会。我们希望这篇综述能为研究人员提供见解，并吸引更多研究人员为这一领域做出贡献。

未来智能实验室的主要工作包括：建立AI智能系统智商评测体系，开展世界人工智能智商评测；开展互联网（城市）大脑研究计划，构建互联网（城市）大脑技术和企业图谱，为提升企业，行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

如果您对实验室的研究感兴趣，欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”