【多模态对抗】AdvCLIP: Downstream-agnostic Adversarial Examples in Multimodal Contrastive Learning

原文标题: AdvCLIP: Downstream-agnostic Adversarial Examples in Multimodal Contrastive Learning
原文代码: https://github.com/CGCL-codes/AdvCLIP
发布年度: 2023
发布期刊: ACM MM


摘要

Multimodal contrastive learning aims to train a general-purpose feature extractor, such as CLIP, on vast amounts of raw, unlabeled paired image-text data. This can greatly benefit various complex downstream tasks, including cross-modal image-text retrieval and image classification. Despite its promising prospect, the security issue of cross-modal pre-trained encoder has not been fully explored yet, especially when the pre-trained encoder is publicly available for commercial use. In this work, we propose AdvCLIP, the first attack framework for generating downstream-agnostic adversarial examples based on cross-modal pre-trained encoders. AdvCLIP aims to construct a universal adversarial patch for a set of natural images that can fool all the downstream tasks inheriting the victim cross-modal pre-trained encoder. To address the challenges of heterogeneity between different modalities and unknown downstream tasks, we first build a topological graph structure to capture the relevant positions between target samples and their neighbors. Then, we design a topology-deviation based generative adversarial network to generate a universal adversarial patch. By adding the patch to images, we minimize their embeddings similarity to different modality and perturb the sample distribution in the feature space, achieving unviersal non-targeted attacks. Our results demonstrate the excellent attack performance of AdvCLIP on two types of downstream tasks across eight datasets. We also tailor three popular defenses to mitigate AdvCLIP, highlighting the need for new defense mechanisms to defend cross-modal pre-trained encoders.


背景

多模态对比学习是一种新颖的机器学习范式,旨在克服标记数据的限制。它使用来自网络的大规模、嘈杂且未经处理的多模态数据对来训练跨模态预训练编码器,例如CLIP。通过使用少量标记数据对这些预先训练的编码器进行微调,可以执行复杂多样的下游任务。

最近的研究试图对VLP编码器的下游任务进行对抗性攻击,但它也提出由于不同模态之间的异构性而导致跨模态攻击的困难,为跨模态预训练编码器创造了一种虚幻的安全感。人们普遍认为,如果不了解预训练数据集、下游数据集、任务类型,甚至下游模型所采取的防御策略,就不可能实现跨模式攻击。

创新点

通用对抗攻击有两种类型:基于扰动的方法和基于补丁的方法。前者需要在全局范围内向图像添加扰动,后者仅限于图像的一小部分区域,更容易应用于物理世界。本文主要关注对抗性补丁攻击。

在本文中,我们提出了 AdvCLIP,这是第一个用于生成与下游无关的对抗性示例的攻击框架,目标是针对下游任务实现基于图像的通用非针对性攻击。这项工作中最艰巨的挑战是有效解决图像和文本之间的模态差距,同时弥合跨模态预训练编码器和下游任务之间的攻击差距。

由于需要最大化目标图像特征与其对应的良性图像和文本特征之间的距离,首先构建拓扑图结构来捕获样本之间的相似性。然后,通过分别破坏单个样本的不同模态之间的映射关系和多个样本之间的拓扑关系来欺骗预训练的编码器。为了实现从预训练编码器到下游任务的攻击可转移性,使对抗性示例远离原始类,而不是简单地跨越决策边界。因此,本文设计了一种基于拓扑偏差的生成对抗网络来生成通用对抗补丁,以固定随机噪声作为输入,实现对下游任务的高攻击成功率攻击。

模型

  1. 攻击模型

假设一种准黑盒攻击模型,攻击者可以访问 VLP 编码器,但缺乏对预训练数据集和下游任务的了解。因此,其目标是进行无针对性的对抗性攻击,从而降低下游任务的准确性。
为了实现这一目标,攻击者利用预先训练的编码器来设计一个与下游无关的通用对抗补丁,该补丁适用于来自不同数据集的各种类型的输入图像。那么对抗性例子会误导所有继承受害者预训练编码器的下游任务。

我们假设下游任务承担者(以下称为用户)能够微调线性层为了他们的事业。考虑到 CLIP
训练的复杂性及其强大的零样本性能,我们认为用户不需要直接微调
CLIP,因为这样做会抵消最初选择它的好处。我们还考虑了更严格的场景,其中用户采用对抗性训练等常见防御机制来提高下游模型的稳健性。

  1. 攻击定义

设 D = {(xi, yi )}Ni=1 表示具有 N 个实例的跨模态数据集。这里, x i = ( x i v , x i t ) x_i = (x ^v_i ,x^t_i ) xi=(xiv,xit),其中 x i v x ^v_i xiv x i t x^t_i xit表示两种数据模态,例如图像文本对,并且它们都属于相同的标签 yi 。给定输入 x i ∈ D a x_i ∈ D_a xiDa 到跨模态预训练编码器 M θ ( ⋅ ) M_θ (·) Mθ() (即 CLIP),该编码器由图像编码器 $E_v (·) $和文本编码器 E t ( ⋅ ) E_t (·) Et() 组成,返回图像分别是特征向量 v v v_v vv和文本特征向量 v t v_t vt。攻击者利用与预训练数据集 D p D_p Dp和下游数据集 D d D_d Dd 不同的代理数据集 D a D_a Da 来生成针对预训练编码器的通用对抗噪声。此外,通用对抗性噪声 δ 应足够小,并通过 lp 范数上的上限 ε 进行建模。这个问题可以表述为:
在这里插入图片描述

借助跨模态预训练编码器强大的特征提取能力,通过可以使用不同模态的输出特征向量对线性层进行微调,以实现复杂的下游任务。本文主要考虑跨模态图像文本检索和单模态图像分类任务。

  • 对于跨模态检索任务,跨模态检索头cθ′(·)根据 v v v_v vv v t v_t vt之间的相似度完成图文检索任务,其中θ′表示检索头的参数。攻击者的目标是通过对下游样本 x ∈ Dd 应用通用对抗性噪声 δ 来实施非定向攻击,欺骗下游跨模态检索头 cθ′ (·)。因此,攻击者的目标可以形式化为:
    在这里插入图片描述
  • 攻击者针对下游图像分类任务的目标可以表示为:
    在这里插入图片描述
  1. AdvCLIP原理

挑战一:图像和文本之间的模态差距。

由于攻击者的目标是对下游任务发起非针对性的对抗性攻击,因此自然而然的想法是通过最大化对抗性与不同模态的相应干净嵌入之间的特征距离来破坏相似性匹配过程。然而,理解和利用高维特征向量来生成对抗性样本是一个具有挑战性的问题。对于简单地最大化嵌入之间的距离 (Vanilla) 的方法,即使图像对抗示例在图像特征空间中保留了其原始类别并被归类为猫,它仍然会被检索以匹配原始类别狗的文本信息。本文在保留特征空间中原始位置的基础上,考虑通过使特征空间中的有序样本无序化来破坏样本的最近邻关系,以更好地强化攻击。
具体来说,首先分别构建对抗性和良性嵌入的拓扑结构,以测量相应的样本相关性。拓扑学基于由表示空间中样本之间的相似性构建的邻域关系图。测量拓扑相似性的过程可以形式化为:
在这里插入图片描述
其中 Gnor 和 Gadv 分别代表由干净样本和对抗样本的样本间相似性构建的邻域关系图。CE(·)是衡量两个图相似度的交叉熵损失。

我们将邻域图的边缘权重定义为两个不同样本为相邻样本的概率,并通过扭曲两个图的概率分布来实现拓扑结构的偏差。然后,利用基于余弦相似度的亲和度量对条件概率分布进行建模,构建邻接图,并去除最近邻点,防止局部密度过高的数据点形成孤立的子图,从而保证流形的局部连通性,更好地保持全局结构。构造邻接图的过程可以表示为:
在这里插入图片描述
其中 pi |j是第i个自然样本在G的特征空间中是第j个自然样本的邻居的条件概率,ρj表示从第j个数据点到其最近邻的余弦距离,di j表示两个样本的相应嵌入之间的余弦距离。通过偏离样本本身及其最近邻关系的两个维度,我们破坏了样本与其对应物之间的相似性映射关系,以实现有效的攻击。

挑战二:跨模态预训练编码器与下游模型之间的可转移性差距。

在将跨模态预训练编码器微调到下游模型后,模型中特征空间的边界可能会发生变化,这可能会使现有攻击无效。因此,本文希望在给定的扰动预算内,使对抗性样本偏离最有可能跨越其原始类别边界的方向。为了应对这一挑战,我们期望使对抗性示例偏离最有可能在相同扰动预算下离开其原始类别边界的方向。
由于生成对抗网络可以生成具有相似显著特征的样本,于是设计了一个生成对抗网络来产生具有强共性的通用对抗噪声,使得对抗样本远离原始类别,而不仅仅是跨越该类别的决策边界。这样,即使用户将预训练的编码器微调到下游模型,对抗性示例仍然无法正确识别。

  1. 基于拓扑偏差的生成攻击框架

AdvCLIP由对抗生成器G、鉴别器D和受害跨模式编码器M组成,M由图像编码器Ev和文本编码器Et组成。给定跨模态预训练编码器的图像文本对 ( x i v , x i t ) (x ^v_i ,x^t_i ) (xiv,xit),图像编码器 Ev 和文本编码器 Et 输出相应的特征向量。我们设计了一种基于拓扑偏差的生成攻击框架,该框架利用跨模态预训练编码器来生成适用于图像的通用对抗性补丁,从而欺骗下游任务。
在这里插入图片描述

1)对抗生成器 Adversarial Generator

通过将固定噪声 z 输入对抗生成器,获得通用对抗补丁 G (z) 并将其粘贴到代理数据集 Da 的图像上以获得对抗示例 x i v ~ \tilde{x^v_i} xiv~ 。生成对抗样本的公式为: x i v ~ = x i v ⊙ ( 1 − m ) + G ( z ) ⊙ m \tilde{x^v_i} = x^v_i⊙ (1 − m) + G (z) ⊙ m xiv~=xiv(1m)+G(z)m,其中m 是包含补丁位置信息的二进制矩阵。
对抗生成器 G 的目标函数为:
在这里插入图片描述

  • L a d v L_{adv} Ladv:
    目的:偏离目标样本的特征位置,通过向图像 xv i 添加补丁,使对抗样本 x i v ~ \tilde{x^v_i} xiv~的特征向量 E v ( x i v ~ ) E_v(\tilde{x^v_i}) Ev(xiv~) 同时远离原始图像特征向量 E v ( x i v ) E_v(x^v_i) Ev(xiv) 和干净文本特征向量 E t ( x i v ) E_t(x^v_i) Et(xiv)。从拓补角度:旨在破坏对抗样本与其对应的正常样本之间的拓扑相似性,即基于表示空间中样本之间的相似性构建的邻域关系图。公式化为: L a d v = L a v + λ L a t L_{adv}=L_{av}+λL_{at} Ladv=Lav+λLat

L a v L_{av} Lav表示图像-图像语义特征偏差损失,拉开良性图像和对抗图像的特征距离。公式为:
在这里插入图片描述
其中 Sim (·) 表示余弦距离函数,τ 表示温度参数。

L a t L_{at} Lat 表示图像-文本语义偏差损失,拉开良性文本和对抗图像的特征距离。公式为:
在这里插入图片描述

  • L t p d L_{tpd} Ltpd
    目标:最大化它们之间的拓扑距离,可以表示为:
    在这里插入图片描述

  • L q L_{q} Lq
    为了保持尽量小的扰动,使用 Lq 来控制每次优化后发生器和裁剪δ输出的对抗噪声的大小,以确保其满足ε约束。
    在这里插入图片描述

  • L g a n L_{gan} Lgan
    目的:保持正常图像和具有对抗性补丁的对抗性示例在判别器上一致性。
    在这里插入图片描述
    2)判别器
    判别器的主要功能是识别对抗生成器生成的假样本的真实性,确保生成的假对抗示例在视觉上与真实示例无法区分。D 的目标损失函数为:
    在这里插入图片描述

实验

  • clip模型,四个数据集
  • 攻击成功率:
    在相同的攻击设置下,不同类型的骨干网对对抗性补丁的脆弱性各不相同,其中 Transformer 架构比 ResNet 更容易受到成功的攻击;其次,代理数据集对下游攻击的成功有显着影响,NUS-WIDE 和 XmediaNet 等数据集包含大量样本,往往会导致更高的攻击成功率;第三,当代理数据集与下游数据集一致时,攻击性能可能不是最佳的。
    下游分类模型输出结果的平均FR值高达70%,模型的平均准确率下降也超过55%。
  • 消融:
    选择基于ResNet50的CLIP作为受害者编码器,并使用NUS-WIDE数据集作为攻击者代理数据集来对图文检索任务发起攻击。
    Ladv 和 Ltpd 的效果:两者共用效果最好
    ε 的影响:CLIP 对不同的扰动强度具有不同的敏感性。当ε为0.03时,可以用较小的块大小实现较高的攻击成功率。
    批量大小的影响:批量大小设置为 16 最好
  • 18
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值