Cross-Modal Transferable Adversarial Attacks from Images to Videos
Abstract
最近的研究表明,在一个白盒模型上手工制作的对抗样本可用于攻击其他黑盒模型。这种跨模型可转移性使得执行黑盒攻击成为可能,这对现实世界的 DNN 应用程序提出了安全问题。然而,现有的工作主要集中在研究共享相同输入数据模态的不同深度模型之间的对抗性可迁移性。对抗性扰动的跨模态可迁移性从未被探索过。本文研究了对抗性扰动在不同模式下的可迁移性,即利用白盒图像模型生成的对抗性扰动来攻击黑盒视频模型。具体来说,由于观察到图像和视频帧之间的低级特征空间相似,我们提出了一种简单而有效的跨模态攻击方法,称为图像到视频(I2V)攻击。I2V通过最小化来自对抗性和良性示例的预训练图像模型特征之间的余弦相似性来生成对抗性帧,然后结合生成的对抗性帧对视频识别模型执行黑盒攻击。大量实验表明,I2V 可以在不同的黑盒视频识别模型上实现较高的攻击成功率。在 Kinetics-400 和 UCF-101 上,I2V 的平均攻击成功率分别为 77.88% 和 65.68%,这揭示了跨模态对抗性攻击的可行性。
1 Introduction
深度学习在一系列计算机视觉任务中取得了显著的进展,如图像识别[3,4,12]、视频分类[41]、目标检测[24]和动作识别[2,11]等。然而,最近的研究表明,深度神经网络(DNNs)很容易受到对抗样本的影响[21,28,29],这些样本是通过添加小的人类难以察觉的扰动来生成的,这些扰动可能导致错误的预测。对抗样本的存在对DNN的应用提出了严重的安全威胁,如自动驾驶[25]、人脸识别[8]、视频分析[5,31,34]等。因此,对抗样本近年来引起了大量的研究关注。
在最近的著作[22,33]中已经证明,对抗样本具有可迁移性的特性,即从一个模型生成的对抗样本可以用来攻击其他模型。这种跨模型可迁移性使得 通过利用在白盒模型上手工制作的对抗样本来执行黑盒攻击 是可行的。因此,如何提高对抗样本的可迁移性来进行高效的黑盒攻击在近年来引起了一些研究兴趣。这些工作要么执行数据增强 [7, 20, 38],优化梯度计算 [6, 20, 36],要么破坏不同模型 [37] 之间的共同属性,以避免生成的对抗样本过度拟合白盒模型。然而,所有这些工作都需要白盒模型和目标黑盒模型是同质的,它们共享相同的输入数据模态。从未探索过异质模式模型之间的可转移性。
为了弥补这一差距,本文研究了对抗样本的跨模态可迁移性。具体来说,我们通过使用仅在 ImageNet 上预训练的图像模型对视频模型进行基于传输的黑盒攻击,来探索图像模型和视频模型之间的对抗性可迁移性。这是一个极具挑战性的设置,因为没有用于生成视频对抗样本的白盒视频模型。在将图像模型生成的对抗性扰动转移到攻击视频模型时,有两个主要障碍。首先,除了图像和视频数据之间的域差距外,视频数据还包含额外的时间信息,这导致图像模型和视频模型之间的学习特征存在差异。差异使得将对抗性扰动从图像迁移到视频是困难的。其次,现有的基于转移的单模态模型攻击(如图像模型)不适用于跨模态攻击场景。与现有的图像的迁移攻击(图像标签在产生对抗性扰动的过程中是可获得的,它们被用来来优化特定于任务的损失函数,比如交叉熵损失)不同,在跨模态图像到视频攻击的情况下,视频帧没有可获得的标签。
为了解决上述挑战并对视频模型进行黑盒攻击,我们提出了一种简单而有效的跨模态攻击方法Image To Video (I2V)攻击。尽管图像数据和视频数据之间存在域差距,但我们观察到图像模型和视频模型之间的中间特征在一定程度上是相似的。这促使我们扰动 ImageNet 预训练图像模型的中间特征,制作对抗性的视频帧以攻击视频识别模型。为此,所提出的 I2V 通过最小化良性帧和生成的对抗帧之间的中间特征的余弦相似度来优化对抗性扰动。余弦相似度的最小化使得从与良性帧提取的特征会正交于从对抗性视频帧中提取的特征。因此,由于图像和视频模型之间的特征相似性,这会导致对抗性视频特征远离良性视频特征。图 1 概述了所提出的 I2V 攻击方法。I2V将来自视频切片的单个帧作为图像模型的输入,逐个生成对抗性帧。然后,根据良性视频切片的时间信息,将生成的对抗性帧分组为视频对抗样本。我们简要总结了我们的主要贡献如下:
- 我们研究了图像模型和视频模型之间对抗性扰动的可迁移性。特别是,我们提出了一种 I2V 攻击,以提高从跨不同的视频识别模型的图像模型所生成的视频对抗样本的可迁移性。据我们所知,这是第一个对视频识别模型进行基于跨模态的基于迁移的黑盒攻击的工作。
- 我们对图像和视频模型之间特征图的相关性进行了深刻的分析。基于这一观察,I2V 在扰动图像模型的特征图上优化对抗帧,以提高不同视频识别模型的可迁移性。
- 我们使用使用 Kinetics-400 数据集和 UCF-101 数据集训练的六个视频识别模型进行实证评估。大量实验表明,我们提出的 I2V 有助于提高从图像模型生成的视频对抗样本的可迁移性。
图 1. 提出的 I2V 攻击概述。给定一个带有“Catching or throwing baseball”的真实标签的视频切片,其中每一帧分别输入到 ImageNet 预训练的图像模型中。然后图像模型通过最小化来自对抗性和良性示例的特征之间的余弦相似度来生成对抗性帧。由于图像模型和视频模型具有相似的特征空间,生成的视频对抗样本可以欺骗视频识别模型,被错误分类为“Abseiling”。
2 Related Work
2.1 Transfer-based Attacks on Image Models
以前的生成具有高可迁移性的对抗样本的工作是基于白盒攻击的,如快速梯度符号法(FGSM)[10]和基本迭代方法(BIM)[19]。FGSM 将损失函数在当前参数周围线性化,并用相对于输入的梯度的符号进一步更新。BIM 是 FGSM 的迭代版本,过度拟合了白盒模型以在攻击白盒模型时生成更强的对抗样本。为了进一步提高对抗样本在攻击黑盒模型时的可转移性,最近提出了几种方法。一般来说,有三种提高可转移性的方法,包括数据增强、梯度修改和不同模型之间判别特征的共同属性破坏。数据增强的主要思想是提高对抗样本的泛化能力,避免过度拟合白盒模型。例如,多样性输入 (DI) [38] 攻击对输入进行随机调整大小和填充。尺度不变方法(SIM)[20]将尺度变换应用于输入。平移不变 (TI) [7] 攻击以与输入短距离执行水平和垂直移位。第二种方法修改用于更新对抗性扰动的梯度。例如,动量迭代(MI)[6]攻击将动量集成到迭代过程中,以稳定更新方向。作为改进的动量方法,Nesterov加速梯度(NAG)[20]也可以集成到BIM中。Skip Gradient Method (SGM) [36] 使用跳过连接的更多梯度,并强调浅层的梯度。第三种方法的主要思想是破坏不同模型之间分类的共同属性。例如,注意力引导转移攻击 (ATA) [37] 优先考虑不同架构可能采用的关键特征的损坏。其他基于转移的攻击,如色散减少(DR)[23]、中级攻击(ILA)[13]通过扰动特征映射提高了对抗性例子在不同任务中的可转移性。相比之下,所提出的 I2V 攻击通过图像模型和视频模型之间编码的空间特征之间的相关性实现了基于跨模态传输的攻击。
2.2 Transfer-based Attacks on Video Recognition Models
与对图像模型的基于迁移的攻击相比,基于迁移的攻击对视频模型的工作要少得多。时间翻译 (TT) 攻击方法 [35] 在一组时间翻译视频切片上优化了对抗性扰动,以避免过度拟合被攻击的白盒模型。虽然TT比基于迁移的图像攻击方法取得了更好的结果,但它增加了计算成本。与之不同的是,所提出的 I2V 攻击在没有训练视频模型的情况下取得了更好的性能,并且易于执行。
2.3 Video Recognition Models
近年来,视频动作识别模型取得了重大进展。以前的研究[16,40]采用2D + 1D范式,其中2D cnn应用于每帧输入提取特征,然后是一个集成每帧特征的1D模块(如rnn)。现在的研究使用 3D CNN 共同捕获视频的动态语义。例如,I3D[2]利用 ImageNet 架构设计及其参数,通过将2D卷积核膨胀为3D来编码时空特征。非本地(NL)[30]网络在I3D中插入非本地操作来编码视频帧之间的远程时间依赖性。SlowFast [9] 沿时间轴对比视觉节奏,这涉及慢速路径和快速路径,分别捕获精细时间分辨率的空间语义和运动。时间金字塔网络 (TPN) [39] 通过特征层次结构架构捕获各种时间的动作实例。在本文中,我们使用六种具有代表性的视频动作识别模型进行实验,包括NL、SlowFast、TPN和3D Resnet-50和Resnet-101作为骨干。
3 Methodology
3.1 Preliminary
给定一个具有真实标签 y ∈ Y = { 1 , 2 , . . . , K } y\in\mathcal{Y}=\{1,2,...,K\} y∈Y={1,2,...,K} 的视频样本 x ∈ X ⊂ R T × H × W × C x\in \mathcal{X} \subset \mathrm {R}^{T \times H \times W\times C} x∈X⊂RT×H×W×C ,其中 T , H , W , C T,H,W,C T,H,W,C 分别表示帧数、高度、宽度和通道数。 K K K 表示类别的数量。令 g g g 表示 ImageNet 预训练的图像模型(例如 ResNet、VGG), f f f 表示视频识别模型。我们使用 f ( x ) : X → Y f(x):\mathcal{X}\to \mathcal{Y} f(x):X→Y 来表示视频识别模型对一个输入视频的预测。因此,所提出的 I2V 攻击旨在通过 g g g 生成对抗样本 x a d v = x + δ x_{adv} = x + \delta xadv=x+δ,它可以在不知道 f f f 的情况下欺骗 f f f 使其 f ( x a d v ) ≠ y f(x_{adv})\ne y f(xadv)=y ,其中 δ \delta δ 表示对抗性扰动。为了确保对抗性扰动 δ \delta δ 是不可察觉的,我们将其限制为 ∥ δ ∥ p ≤ ϵ \parallel \delta \parallel_{p}\le \epsilon ∥δ∥p≤ϵ,其中 ∥ ⋅ ∥ p \parallel \cdot \parallel_{p} ∥⋅∥p 表示 L p L_{p} Lp 范数, ϵ \epsilon ϵ 是范数约束的常数。我们采用[7,20,36-38]中常用的 L ∞ L_{\infty} L∞ 范数以及非定向对抗性攻击。在白盒设置中,非目标对抗性攻击的目标可以表述为:
arg max δ J ( f ( x + δ ) , y ) , s . t . ∥ δ ∥ ∞ ≤ ϵ \underset{\delta}{\arg\max} J(f(x+\delta),y),s.t.\parallel \delta \parallel _{\infty}\le \epsilon δargmaxJ(f(x+δ),y),s.t.∥δ∥∞≤ϵ
这里 J J J 是视频模型 f f f 的损失函数(比如说交叉熵损失)。然而,在本文中,对手无法访问关于 f f f 的知识。所提出的 I2V 攻击利用从 g g g 生成的对抗样本在黑盒设置中攻击 f f f。
3.2 Correlation Analysis between Image and Video Models
在介绍所提出的方法之前,我们首先对图像和视频模型之间的相关性进行了实证分析。在之前的工作中[15]已经证明,利用 Imagenet 预训练的图像模型来生成试探性的扰动,也许对黑盒攻击视频识别模型来说能有更少查询。这基本上表明图像模型和视频模型之间的中间特征可能在一定程度上是相似的。因此,扰动图像模型的中间特征图可能会影响视频模型的特征图。为了验证这一假设,我们用余弦相似度分析了 图像和视频模型之间 良性帧和对抗性帧的 中间特征的相似性。
图 2 显示了图像和视频模型之间中间特征的余弦相似度。从Kinetics-400中随机选择的400个视频提取中间特征,然后取平均值来计算余弦相似度。对于所有视频模型,中间特征是从第一个 3D-Resnet 块中提取的,而对于不同的图像模型,特征是从不同的中间层中提取的,如表 2 所示(以红色标记)。在这里,我们为不同的图像模型选择不同的中间层,目的是最大化图像特征和视频特征之间的相似性。从图2可以看出,对于良性样本和对抗样本,从图像模型和视频模型中提取的中间层特征在一定程度上是相似的。这主要是因为图像模型和视频模型中的卷积操作在某种程度上是相似的。值得一提的是,从良性样本和对抗样本中获得的余弦相似度非常相似。这基本上表明对抗性扰动对图像和视频模型之间特征空间的相似性几乎没有影响。当使用其他中间层的视频模型时,也可以观察到类似的趋势。
图 2. 良性示例和对抗性示例上图像模型和视频模型之间的中间特征的余弦相似度分析。余弦相似度是根据Kinetics-400中随机选择的400个视频提取的平均中间特征来计算的。对抗性视频样本由FGSM和BIM生成,使用视频模型作为白盒模型。较深的颜色表示较高的余弦相似度。
为了说明在特征图上的对抗性扰动可以在视频和图像模型上迁移,我们进一步比较了在视频帧中添加相同的对抗性扰动之前和之后,图像和视频模型的通道激活的幅度变化。结果如图3所示。可以看出,在NL-101上生成的对抗样本不仅扰乱了NL101中的通道激活幅度,还扰乱了Resnet-101中的通道激活幅度。由于特征的每个通道都捕获了对象的特定模式,对最终分类的贡献不同,图像和视频模型的幅度变化可能会导致错误的预测,这表明在图像和视频模型之间转移对抗性扰动的可能性。
图3。图像和视频模型倒数第二层(x轴上2048个通道)的通道激活的幅度(y轴)。幅度由每个通道的全局平均池化计算。在每个图中,通道大小是从随机选择的 400 个 Kinetics400 视频平均的,并分别显示良性和对抗性示例(由 BIM 生成)。对于良性示例,2048 个通道按数量级排序。
3.3 Image To Video (I2V) Attack
基于上述观察,我们提出了Image To Video (I2V) 攻击,它从 ImageNet 预训练的图像模型生成视频对抗样本,以提高异构模态的模型的可迁移性,并且攻击在黑盒设置中的视频模型。通过扰动图像模型的中间特征,I2V生成对抗样本,以高概率干扰黑盒视频模型的中间特征。特别是,I2V 通过以下方式优化第 i i i 个对抗性帧:
arg min δ C o s S i m ( g l ( x i + δ ) , g l ( x i ) ) , s . t . ∥ δ ∥ ∞ ≤ ϵ \underset{\delta}{\arg \min} \ CosSim(g_{l}(x^{i}+\delta),g_{l}(x^{i})),s.t.\parallel \delta \parallel_{\infty} \le \epsilon δargmin CosSim(gl(xi+δ),gl(xi)),s.t.∥δ∥∞≤ϵ
这里 g l ( x i ) g_{l}(x^{i}) gl(xi) 代表对于输入 x i x^{i} xi 在图像模型的第 l l l 层的中间特征图, x i ∈ R H × W × C x^{i}\in \mathrm{R}^{H\times W\times C} xi∈RH×W×C 代表 x x x 的第 i i i 帧,函数 C o s S i m CosSim CosSim 计算了 g l ( x i + δ ) g_{l}(x^{i}+\delta) gl(xi+δ) 和 g l ( x i ) g_{l}(x^{i}) gl(xi) 之间的余弦相似度。
通过这种方式,余弦相似度的最小化使得 用正交于良性示例特征的特征 来优化对抗性示例 成为可能。考虑 g l ( x i ) g_{l}(x^{i}) gl(xi) 是倒数第二层的输出,用 W = ( W 1 , . . . , W y , . . . , W K ) W = (W_{1},..., W_{y} ,..., W_{K} ) W=(W1,...,Wy,...,WK) 表示分类层的权重,那么 W y W_{y} Wy 和 g l ( x i ) g_{l}(x^{i}) gl(xi) 是高度对齐以产生一个真实的预测。通过最小化 $CosSim(g_{l}(x{i}+\delta),g_{l}(x{i}))=\frac{g_{l}(x{i}+\delta){T}g_{l}(x^{i})}{\parallel g_{l}(x^{i}+\delta) \parallel \cdot \parallel KaTeX parse error: Expected 'EOF', got '}' at position 23: …^{i}) \parallel}̲,如果 g l ( x i + δ ) g_{l}(x^{i}+\delta) gl(xi+δ) 和 g l ( x i ) g_{l}(x^{i}) gl(xi) 具有单位长度,我们可以得到最小化的 g l ( x i + δ ) T g l ( x i ) g_{l}(x^{i}+\delta)^{T}g_{l}(x^{i}) gl(xi+δ)Tgl(xi)。由于 W y W_{y} Wy 和 g l ( x i ) g_{l}(x^{i}) gl(xi) 之间的高度对齐,余弦相似度的最小化会导致 W y ⋅ g l ( x i + δ ) W_{y}\cdot g_{l}(x^{i}+\delta) Wy⋅gl(xi+δ) 的值减少很多,以欺骗图像模型 g g g 进行错误的预测。基于图像和视频模型特征空间的相似性,生成的对抗样本 $x_{adv} = (x^{1}{adv} ,…, x^{i}{adv} ,…, x^{T}_{adv}) $ 可以以高概率欺骗视频模型,通过扰动视频中间特征。
跟着 [32],我们用一个小的常数值 0.01 255 \frac{0.01}{255} 2550.01 来初始化对抗性扰动 δ \delta δ,并使用Adam优化器[17]求解方程2并更新 δ j i \delta_{j}^{i} δji。算法 1 说明了所提出的 I2V 攻击的对抗性示例的生成过程。其中 I I I 表示 Adam 优化器的迭代数, c l i p x i , ϵ clip_{x^{i},\epsilon} clipxi,ϵ 表示将 x i + δ I i x_{i}+\delta_{I}^{i} xi+δIi 投影到 x i x_{i} xi 附近以满足 $\parallel \delta_{I}^{i}\parallel_{\infty} \le \epsilon $。最后,I2V 攻击将所有生成的对抗性帧 x a d v i x^{i}_{adv} xadvi 组合成一个视频对抗性示例 x a d v x_{adv} xadv。
3.4 Attacking an Ensemble of Models
MIFGSM [6] 表明,攻击一个集成的模型可以提高生成的对抗样本的可迁移性。当生成的示例在集成模型上保持对抗性时,它可能可以迁移到攻击其他模型。在此基础上,我们建议使用多个 Imagenet 预训练的图像模型来执行I2V攻击,命名为ENS-I2V,通过以下方式优化第i个对抗帧:
arg min δ ∑ n = 1 N C o s S i m ( g l n ( x i + δ ) , g l n ( x i ) ) , s . t . ∥ δ ∥ ∞ ≤ ϵ \underset{\delta}{\arg \min} \sum_{n=1}^{N}\ CosSim(g^{n}_{l}(x^{i}+\delta),g^{n}_{l}(x^{i})),s.t.\parallel \delta \parallel_{\infty} \le \epsilon δargminn=1∑N CosSim(gln(xi+δ),gln(xi)),s.t.∥δ∥∞≤ϵ
这里 N N N 是图像模型的个数, g l n ( ⋅ ) g_{l}^{n}(\cdot) gln(⋅) 返回第 n n n 个图像模型的第 l l l 层的中间特征。ENS-I2V 产生的对抗帧的中间特征正交于两性示例的集成特征,因此 ENS-I2V 可以生成高度可迁移的对抗样本。