【多模态对抗】VQAttack: Transferable Adversarial Attacks on Visual Question Answering via Pre-trained Model

原文标题: VQAttack: Transferable Adversarial Attacks on Visual Question Answering via Pre-trained Models
原文代码: https://github.com/ericyinyzy/VQAttack
发布年度: 2024
发布期刊: AAAI


摘要

Visual Question Answering (VQA) is a fundamental task in computer vision and natural language process fields. Although the “pre-training & finetuning” learning paradigm significantly improves the VQA performance, the adversarial robustness of such a learning paradigm has not been explored. In this paper, we delve into a new problem: using a pretrained multimodal source model to create adversarial imagetext pairs and then transferring them to attack the target VQA models. Correspondingly, we propose a novel VQATTACK model, which can iteratively generate both image and text perturbations with the designed modules: the large language model (LLM)-enhanced image attack and the cross-modal joint attack module. At each iteration, the LLM-enhanced image attack module first optimizes the latent representationbased loss to generate feature-level image perturbations. Then it incorporates an LLM to further enhance the image perturbations by optimizing the designed masked answer antirecovery loss. The cross-modal joint attack module will be triggered at a specific iteration, which updates the image and text perturbations sequentially. Notably, the text perturbation updates are based on both the learned gradients in the word embedding space and word synonym-based substitution. Experimental results on two VQA datasets with five validated models demonstrate the effectiveness of the proposed VQATTACK in the transferable attack setting, compared with stateof-the-art baselines. This work reveals a significant blind spot in the “pre-training & fine-tuning” paradigm on VQA tasks. Source codes will be released.


背景

目前vqa模型有两种主流训练方式,与流行的“预训练和微调”范例相比,端到端训练的模型通常表现出较差的性能。在这种范式中,模型最初是在公共领域广泛收集的图像-文本对上进行预训练的,从而促进了多式联运关系的获取。随后,模型使用特定的 VQA 数据集进行微调,以增强其在下游任务上的性能。然而,VQA 任务背景下的对抗鲁棒性方面(受此范例支配)仍未得到充分探索。因此本文也是一篇在预训练模型上进行攻击训练和生成的黑盒攻击。

这种攻击场景具有显着的复杂性,这源于以下两个基本方面: C1 – 跨模型的可转移性。预训练的源模型和受害者目标 VQA 模型通常针对不同的任务进行训练,并在不同的数据集上进行训练。虽然可迁移性的概念已在图像模型的背景下得到广泛验证,但预训练模型领域内的这种属性尚未得到全面探索。 C2 – 不同方式的联合攻击。我们的任务围绕多模态问题,需要对图像和文本问题引入扰动以提高性能。尽管以前的方法已经有效地为每种单独的模态设计了攻击策略,但复杂的挑战在于同时优化具有连续值的图像和以离散标记为特征的文本内容的扰动。这种联合攻击任务仍然构成重大障碍,需要创新的解决方案。

创新点

为了应对这些挑战,我们提出了一种名为 VQATTACK 的新方法来探索预训练的源 VQA 模型和受害者目标 VQA 模型之间的对抗性可转移性。如图 2 所示,所提出的 VQATTACK 仅基于预训练的源模型 F 和新颖的多步攻击框架生成图像和文本扰动。

初始化输入图像文本对(I,T)后,VQATTACK将通过两个关键模块:大语言模型(LLM)增强图像攻击和跨模态联合攻击。

在LLM增强图像攻击模块中,VQATTACK首先遵循现有工作来最小化干净输入和扰动输入之间潜在特征的相似性,然后使用裁剪技术获得图像扰动 I ˆ′m。为了进一步增强攻击的可转移性,VQATTACK在ChatGPT的帮助下引入了一种新的屏蔽答案抗恢复损失,它与现有的潜在特征级攻击不同,在扰动生成过程中涉及正确的答案标签Y。 LLM增强图像攻击模块将在每次迭代时执行,该模块的输出表示为I^*m。

由于文本数据的离散性质以及每个文本输入中信息单词的数量有限,因此在每次迭代时攻击文本对于扰动生成可能不是必要的或有益的。因此,当m满足特定条件时,将触发跨模态联合攻击模块。在此阶段,VQATTACK 首先通过跨模态特征扰动和裁剪技术更新图像的扰动(即 ^I*m)。然后,它使用学习到的梯度和词嵌入空间中基于词同义词的替换来更新文本扰动 ^ Tm。

模型

我们使用 F 表示公开可用的预训练 VL 源模型,使用 S 表示受害者 VQA 目标模型。可转移VQA攻击的目标是使用干净的输入(I,T)在预训练的源模型F上生成对抗性图像文本对(I ˆ,T ),这将使目标受害者模型S具有错误的预测,即 S(I ˆ, ˆ T) / ε Y,其中 Y 是正确答案的集合。

然而,我们设置中的受害者模型 S 是一个黑盒、任意且未知的模型,我们可以访问的唯一模型是预先训练的源模型 F。令 G 表示所提出的可转移攻击策略 VQATTACK。在这里插入图片描述
其中G是迭代攻击函数,M是迭代次数。 σi和σs是控制对抗图像和文本质量的两个超参数。

1.初始化

对于输入图像I,通过添加从高斯分布U采样的噪声δ来初始化I^,即 I 0 ˆ = I + δ I^ˆ_0 = I + δ I0ˆ=I+δ,其中 δ ∈ U(0, 1)。对于文本模态,我们直接使用原始输入作为初始化,即 T 0 = T T_0 = T T0=T。直观地,初始化对$ (I_0, T_0) $可以作为跨模态联合攻击模块的初始输入,其中每次迭代时都会对 ( I m ˆ , T m ˆ ) (I ^ˆ_m, T^ˆ _m) (Imˆ,Tmˆ) 执行迭代更新。

然而,值得注意的是,这种方法不一定高质量对抗性示例。需要考虑的一个方面是输入图像 I 的数字像素表示与基于序列的图像之间的内在差异输入文本 T 的性质。对离散 T 的频繁扰动通常会导致显着的梯度波动,从而对数值 I 的扰动产生不利影响。因此,在整个攻击过程中严格耦合这两种模式的更新可能会产生负面影响。并不是最优策略。此外,输入文本 T 的典型特征是平均长度相对较短,仅包含有限数量的信息词。这使我们认识到,在每次迭代时攻击文本可能没有必要或没有好处。

2.LLM 增强图像攻击

  • 潜在特征的扰动生成

这些方法的目标是在每次迭代 m 时分别使用干净的 I 和扰动的 I ˆm−1 来最小化预训练模型 F 学习到的潜在特征之间的相似性。为了生成 I ˆm 的扰动,我们首先遵循现有的工作,通过最小化以下相似性损失函数来更新图像扰动:
在这里插入图片描述

其中Lp和Lq分别表示图像编码器和多模态编码器中的层数。 Dp和Dq表示图像编码器和多模态编码器的输入标记的数量。对于图像编码器,输入标记是图像块;多模态编码器将图像块和文本单词的表示作为输入标记。 f p i,j 和 f q i,j 是具有干净输入对 (I, T) 的第 i 层中第 j 个标记的输出特征表示向量。 f ˆp i,j 和 f ˆq i,j 表示第 i 层中第 j 个神经元的输出特征表示向量,其中输入有扰动对 (I ˆm−1, ˆ Tm−1)。

  • 基于LLM的扰动增强

在可转移攻击的背景下,与受害者目标模型S相比,预训练的源模型F通常表现出显着的差异。为了应对这一挑战,我们提出了一种利用大型语言模型 (LLM) 功能的解决方案,以及相应的答案Y支持扰动生成的过程。

(1)使用LLM生成屏蔽文本。

在给定的视觉问题配对中,可以存在多个正确答案,表示为 Y = [y1,···, yN ],其中 N 对应于正确答案的数量。可转移攻击的主要目标是以 $S(I,T) $的输出不属于集合 Y 的方式创建对抗性实例。为了最大限度地提高这种可转移攻击的有效性,一种简单的方法可能涉及强制预训练模型 F 在每次迭代时都会产生错误的预测。

然而,值得注意的是,这种方法对于预训练模型 F 的当前状态来说是不切实际的,因为它们不是明确设计用于在预训练阶段预测 VQA 答案。而许多模型将掩码语言建模 (MLM) 任务作为其预训练的一部分,因此可以使用 MLM 框架将答案预测任务转换为屏蔽答案恢复任务。为此,我们需要使用 LLM 将扰动问题 ˆ Tm−1 和每个正确答案 yi ∈ Y 与预定义的提示 P 结合起来。设 ˆ Zm,i = LLM( ˆ Tm−1, yi, P) 表示第 i 个正确答案的组合句子。对答案 yi进行mask,使用 ˆ Zm,i\Mi 来表示屏蔽句子。

• 屏蔽答案反恢复。

为了实现可转移攻击,我们将通过最小化以下反恢复损失来防止模型恢复每个屏蔽文本 ^ Zm,i\Mi 的正确答案标记:
在这里插入图片描述

对学习到的图像扰动进行裁剪,输出表示为 I^*m。

3.跨模态联合攻击

对于数值图像,我们仍然可以使用梯度和裁剪技术来更新扰动,但对于离散文本,我们建议在连续词嵌入的帮助下使用单词替换技术来替换文本中的单词。

  • 联合攻击触发

我们设计了一个启发式函数,通过考虑文本中信息单词的数量(表示为 |W|)和最大迭代 M 来确定何时触发联合攻击。当 m mod ⌊ M |W|+1 ⌋ = 0 时,VQATTACK 触发联合攻击。这里,“+1”操作是为了防止仅在最后一个迭代步骤中攻击^ Tm−1。

接下来,我们介绍如何识别信息词并提取其同义词。给定一个干净的文本 T,我们首先对其进行标记,并使用自然语言工具包 (NLTK)2 过滤掉所有停用词,这会产生一个集合 {ti|i ∈ W},其中 W 表示未过滤标记的索引。对于每个 token ti,我们遵循 BERT-Attack (Li et al. 2020) 并使用 BERT 模型 (Devlin et al. 2019) 来预测共享相似上下文的前 K 个候选词,从而产生一组候选词{ci,1,···,ci,K}。然后,我们获得所有标记 i ∈ W 的候选集,并获得集合 C = {ci,j|1 ≤ j ≤ K}i∈W 。

  • 跨模态扰动生成

通过最小化以下潜在特征级损失函数来更新扰动图像和文本的梯度:

潜在词嵌入估计。单词替换攻击的目的是用同义词(即集合 C 中的单词)替换文本 ˆ Tm−1 中原始的信息性单词。为此,我们需要首先使用原始信息性单词来估计攻击后的单词表示嵌入 E(ti) (i ∈ W) 及其梯度 ∇Lcm(ti) 通过等式学习。 (5)如下:

同义词排名。同义词替换的目标是从{ci,1,···,ci,K}中找到ti的同义词来替换原来的信息词ti,使同义词的嵌入接近E(ˆti)。由于W中可能有几个信息丰富的词,我们需要决定替换的顺序。直观上,E(ˆ ti) 与同义词 ci,j 的嵌入之间的相似性越大,ci,j 成为扰动的可能性就越高。为此,我们用每个同义词 ci,j 替换原始单词,以生成每个同义词的上下文感知单词嵌入 E(ci,j)。然后,我们计算估计的潜在表示和同义词上下文感知词嵌入之间的成对余弦相似度,如下所示:

同义词替换。我们用 R© 中相似度最大的同义词替换 ^ Tm−1 中的原始单词。然后检查,如果 Cos(U ( ˆ T′m−1), U (T)) > σs,那么我们将保留替换,删除 R© 中该单词的所有其他同义词,然后移至下一个信息词。如果 不满足则使用 R© 中第二大值的同义词,重复检查。

实验

  • 攻击成功率
    我们或者选择一个预先训练过的模型作为源模型来生成对抗性样本,然后使用这些样本来攻击那些被视为受害者的剩余模型。实验结果见表1。我们可以观察到,在5个可转移攻击实验中,所提出的vq攻击显著优于在每个数据集上的所有基线。其中,以ViLT为源模型,vqassy的平均ASR为22.49%,TCL为34.23%,ALBEF为31.88%,VLMO-B为29.33%,VLMO-L为25.51%。当使用ViLT作为源模型时,ASR值相对较低,因为其模型结构和训练前的策略与其他模型有较大的差异。以VLMO-L为源模型得到的ASR值略低于以VLMO-B为源模型得到的ASR值。这表明,该模型具有较大的参数,具有更好的对抗性鲁棒性。最后,所有这些结果都证明了我们提出的方法的有效性,也全面揭示了在“训练前和微调”学习范式中对抗性攻击的巨大威胁。
  • 消融
    本消融研究旨在验证这两个设计模块的有效性。图3显示了使用TCL生成的对抗性样本攻击VLMO-B的消融研究结果。“IE”表示仅使用图像编码器学习到的潜在表示,在等式中生成对抗性样本 (3).“LRP”是指在llm增强的图像攻击模块中使用的潜在表示扰动,其中我们只使用等式(3)生成对抗性的样本。我们可以观察到,使用多模态编码器可以取得显著的ASR改进。“LLM-E”的意思是使用这两个等式。(3)和(4)来产生扰动。与“LRP”相比,性能可以提高,说明引入LLM帮助生成掩码文本的有效性,以及设计的掩码答案反恢复损失的有效性 (4).所提出的vq攻击取得了最好的性能。LLM-E和vqassy之间的性能差距证明了所提出的跨模态联合攻击模块的有效性。
  • 在本实验中,我们使用预先训练的模型F作为源模型,其下游VQA任务作为目标S. F和S共享大部分结构,只有最终的预测层不同。实验结果见表2。我们可以观察到,在两个VQA数据集上,所提出的vq攻击仍然优于所有的基线。与表1中列出的结果相比,我们可以观察到,在此设置下,所有方法的性能都有了显著的提高。本实验认为共享信息较为敏感,可能使目标模型更加脆弱。

结论

  • 30
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值