原文标题: Mutual-modality Adversarial Attack with Semantic Perturbation
原文代码: 暂无
发布年度: 2024
发布期刊: AAAI
摘要
Adversarial attacks constitute a notable threat to machine learning systems, given their potential to induce erroneous predictions and classifications. However, within real-world contexts, the essential specifics of the deployed model are frequently treated as a black box, consequently mitigating the vulnerability to such attacks. Thus, enhancing the transferability of the adversarial samples has become a crucial area of research, which heavily relies on selecting appropriate surrogate models. To address this challenge, we propose a novel approach that generates adversarial attacks in a mutual-modality optimization scheme. Our approach is accomplished by leveraging the pre-trained CLIP model. Firstly, we conduct a visual attack on the clean image that causes semantic perturbations on the aligned embedding space with the other textual modality. Then, we apply the corresponding defense on the textual modality by updating the prompts, which forces the re-matching on the perturbed embedding space. Finally, to enhance the attack transferability, we utilize the iterative training strategy on the visual attack and the textual defense, where the two processes optimize from each other. We evaluate our approach on several benchmark datasets and demonstrate that our mutual-modal attack strategy can effectively produce high-transferable attacks, which are stable regardless of the target networks. Our approach outperforms state-of-the-art attack methods and can be readily deployed as a plug-and-play solution.
背景
在对抗的黑盒设置中,攻击者无法访问模型的参数和结构,因此需要提高攻击对任意目标网络的可转移性。目前大多数致力于增强对抗性攻击可转移性的技术主要取决于代理模型的选择。然而,这些代理模型通常被证明是不稳定的,并且深受代理模型本身和目标网络之间的架构相似性的影响。因此,仔细选择具有鲁棒特征提取器和卓越概括性的最佳替代模型成为一个关键因素。鉴于数据集中存在大量图像和对象类别,之前的研究使用了多个 ImageNet 预训练网络作为代理模型。
创新点
本文利用 CLIP 模型作为替代模型,因为它能够在对齐的特征空间中对齐视觉和文本模式。通过视觉编码器和文本编码器配对使得生成具有语义扰动的对抗性样本。本文的扰动方法最大化语义差异,以确保攻击后的特征保留明确的语义信息,并且不会落入没有明确语义的区域,从而确保生成的攻击的有效性。
在本文中,我们建议将攻击和防御集成到一个框架中,建立在从预训练的 CLIP 模型对齐的视觉和文本嵌入空间获得的语义扰动的基础上。本文将视觉扰动应用于干净的图像,增加了特征空间中的语义差异,并在给定输入图片时导致与文本嵌入的矛盾。然后,我们通过更新文本提示模板、消除这种语义差距并恢复蕴涵来防御攻击。这种迭代的攻防优化策略增强了攻击对目标黑盒网络的可转移性。
模型
模型概要
根据图像的训练分布,本文训练生成器 G 来生成应用于输入干净图像 xi 的通用扰动。由此可以得到相应的对抗样本x′ i 为:
将干净图像
x
i
x_i
xi 的真实标签表示为
y
t
r
u
e
y_{true}
ytrue,则攻击目标是获得能够跨架构和跨数据集传输的通用扰动。
本文利用 CLIP 作为代理模型来生成扰动。由于 CLIP 将两种模态作为输入进行预测 y′ = arg maxy p(y|xi),因此我们将这两种模态的攻击和防御构建为一个框架。 具体来说,用 CLIP 产生攻击可以被视为一种对抗性训练过程:
其中P(·)是文本输入的提示微调函数。
- “Visual Attack with Semantic Perturbation”
考虑到 M 保持黑盒的事实,攻击 CLIP 模型的特征嵌入空间。CLIP模型的预训练图像编码器Ei是一个强大的特征提取器,具有高可转移性。
(1)为了确保对抗性样本的可转移性,目标是最大化对抗性输入 x′ i 的特征表示与干净输入 xi 的特征表示的距离,损失函数为:
此外,还应用额外的三元组损失来确保扰动特征 Ei(x′ i) 以错误的预测欺骗下游网络。
(2)计算三元组损失,
每个xtc由提示模板“a photo of" +label和标签对象组成。这样,对于每个具有真实标签 ytrue 的干净图像 xi,使用三元组损失ltri 来误导两种模态的特征匹配。
这种三元组损失迫使受扰动的图像特征远离其真实文本嵌入 F ytrue t,同时最小化与最初与干净图像特征 Fi 关系最小的文本嵌入 F y′ t 的距离。
(3)分类损失:
- “Textual Defense with Prompt Updating”
对于干净的图像 xi,其特征嵌入可以表示为 Fi。对于每个标签 c ∈ {0, 1, …, C − 1},每个标签的文本输入可以由 m + 1 个文本标记组织为: xtc = [< CLASS© >, v1, v2, …,vm]。然后每个标签 c 的文本嵌入计算为 F c t ← Et(xtc)。 在这里,将文本输入 Xt 分离为固定标签标记 Xl =< CLASS© > 和动态提示标记 Xp = {v1, v2, …, vm},并直观地将标签标记放在开头。CLIP 模型倾向于将每个标签的概率输出为:
假设基于当前文本输入 Xt,CLIP 模型对带有真实标签 ytrue 的干净输入 xi 做出了正确的预测,并且攻击生成器通过将其预测为错误标签 y′ 成功地对其进行了攻击。攻击(A)和防御(D)过程可以表述为:
其中在[A]中,我们学习用于生成对抗性扰动的生成器G,在[D]中,我们使用提示调整函数P将文本输入Xt更新为X′t,以再次指导CLIP上的正确预测。
在提示调整过程中,我们固定标签标记 Xl,并且仅通过与之前的视觉嵌入相比最大化语义相似度来更新提示模板 X′ p:
然而,由于直接学习每个最佳文本标记是不切实际的,我们转而修改每个单词标记的概率加权单词显着性方法,通过随机替换每个单词token,计算每个单词的对于扰动性重要程度:
设置阈值ρ,这意味着只有单词token Xupdate = {vn|S(vn) > ρ, 1 ≤ n ≤ m}被设置为更新。
因此,我们从一组候选词中更新 Xupdate 中的每个词标记,更新过程表述为:
其中 Γ(vn) 是 GPT2 生成的候选词集。并且通过确保大多数扰动样本与其真实相关的词嵌入重新匹配,更新每个候选词标记以再次纠正语义一致性。
总的来说,提示调整函数可以表示为:P(Xt) = Xl + Xp(∪nvn*)。
实验
- 消融实验
对损失函数和迭代训练和随机prompt进行了实验
随机prompt不能提升攻击的可迁移性 - 生成对抗样本的可视化
随着迭代次数的增加,扰动也有增强 - 迭代的效果
常规训练的收敛速度更快,但是攻击的成功率更低 - 嵌入空间的可视化
原先将属于同一类别的特征组合在一起,使分类器易于识别它们。但是,攻击后的特征空间混合在一起,这欺骗了分类器。 - 跨结构的最终效果
当将产生的攻击转移到目标网络时,攻击在与代理模型相似架构的网络之间表现更好;我们提出生成具有高迁移性的攻击,这在ImageNet和CIFAR-10数据集上都降低了整体精度; - 跨数据集的效果
我们的方法(‘Curr. + Ours’)在集成到当前方法中时提高了跨数据集攻击的成功率,尤其是在以 CLIP 和 SimpleViT 为目标网络的情况下。