Frequency Domain Model Augmentation for Adversarial Attack
本文 “Frequency Domain Model Augmentation for Adversarial Attack” 提出了频谱模拟攻击方法,从频域角度增强对抗攻击。通过理论分析和大量实验,验证了该方法在缩小替代模型与目标模型差距、提升对抗样本可迁移性方面的有效性。
摘要-Abstract
For black-box attacks, the gap between the substitute model and the victim model is usually large, which manifests as a weak attack performance. Motivated by the observation that the transferability of adversarial examples can be improved by attacking diverse models simultaneously, model augmentation methods which simulate different models by using transformed images are proposed. However, existing transformations for spatial domain do not translate to significantly diverse augmented models. To tackle this issue, we propose a novel spectrum simulation attack to craft more transferable adversarial examples against both normally trained and defense models. Specifically, we apply a spectrum transformation to the input and thus perform the model augmentation in the frequency domain. We theoretically prove that the transformation derived from frequency domain leads to a diverse spectrum saliency map, an indicator we proposed to reflect the diversity of substitute models. Notably, our method can be generally combined with existing attacks. Extensive experiments on the ImageNet dataset demonstrate the effectiveness of our method, e.g., attacking nine state-of-the-art defense models with an average success rate of 95.4%.
在黑盒攻击中,替代模型与目标模型之间的差距通常较大,这表现为攻击性能较弱。鉴于同时攻击多种不同模型能够提高对抗样本的可迁移性这一观察结果,人们提出了通过使用变换后的图像来模拟不同模型的模型增强方法。然而,现有的空间域变换并不能产生显著多样化的增强模型。为解决这一问题,我们提出了一种新颖的频谱模拟攻击方法,以针对常规训练模型和防御模型生成更具可迁移性的对抗样本。具体而言,我们对输入应用频谱变换,从而在频域中进行模型增强。我们从理论上证明,源自频域的变换会产生多样的频谱显著性图,这是我们提出的一个用于反映替代模型多样性的指标。值得注意的是,我们的方法通常可以与现有攻击方法相结合。在ImageNet数据集上进行的大量实验证明了我们方法的有效性,例如,对9种最先进的防御模型进行攻击时,平均成功率达到95.4%.
引言-Introduction
该部分主要介绍了研究背景和动机,具体内容如下:
- 深度神经网络的稳定性问题:深度神经网络(DNNs)在计算机视觉领域取得了显著成就,如图像分类、人脸识别和自动驾驶等。然而,其稳定性备受关注,对抗样本仅在干净图像上添加人眼难以察觉的扰动,就能轻易欺骗先进的DNN模型。因此,生成能覆盖DNN更多盲点的对抗样本,对提高其鲁棒性至关重要。
- 对抗攻击的分类及黑盒攻击的局限:对抗攻击分为白盒和黑盒两种设置。白盒攻击中,攻击者可获取模型的架构和参数等信息,能直接利用目标模型的梯度生成对抗样本,成功率较高。但在实际应用中,白盒攻击难以实现。黑盒攻击则通过替代模型生成对抗样本,利用对抗样本的跨模型迁移性来攻击目标模型。然而,替代模型与目标模型之间差距较大,导致对抗样本的迁移性较低。
- 模型增强方法的不足:为解决黑盒攻击中对抗样本迁移性低的问题,模型增强方法应运而生。该方法通过对输入应用保持损失的变换来模拟不同模型,但现有工作主要在空间域进行研究,可能忽略了模型之间的本质差异,导致增强模型的多样性不足。
- 提出频谱模拟攻击的动机:为更好地揭示模型之间的差异,从频域角度引入频谱显著性图。不同模型的频谱显著性图差异显著,表明各模型对相同频率成分的关注不同。基于此,考虑调整频谱显著性图以模拟更多样化的替代模型,从而生成更具迁移性的对抗样本。提出基于离散余弦变换(DCT)和逆离散余弦变换(IDCT)技术的频谱变换方法,并从理论上证明该方法可生成多样的频谱显著性图,有效缩小替代模型与目标模型之间的差距。
- 研究的主要贡献:发现空间域变换得到的增强模型多样性不显著,可能限制对抗样本的迁移性;引入频谱显著性图研究模型差异,并提出频谱模拟攻击方法,有效缩小替代模型与目标模型的差距;在ImageNet数据集上进行大量实验,验证了该方法的有效性,相比现有基于迁移的攻击方法,对常规训练模型和防御模型的攻击成功率有显著提升。
图1:常规训练模型Inception-v3(Inc-v3)、Inception-v4(Inc-v4)、ResNet-152(Res-152)以及防御模型Inception-ResNet-v2集成(IncRes v2ens)的频谱显著性图(所有图像的平均值)可视化结果。
(a):我们在频域中进行变换(
N
=
5
N = 5
N=5)后的图像结果。
(b~c):分别是空间域中尺度不变变换(
m
1
=
5
m_1 = 5
m1=5)和Admix变换(
m
1
=
5
m_1 = 5
m1=5,
m
2
=
3
m_2 = 3
m2=3)的结果。
(d~g):四张不同模型上原始图像的结果。
相关工作-Related Works
该部分主要介绍了与本文研究相关的工作,包括对抗攻击、基于频率的分析与攻击、对抗防御三个方面,具体内容如下:
- 对抗攻击:自Szegedy等人发现对抗样本以来,多种攻击算法被提出以研究DNNs的脆弱性。基于FGSM的黑盒攻击是最有效的攻击方式之一,为增强对抗样本的迁移性,研究者采取了多种策略。例如,Dong等人在I-FGSM的每次迭代中采用动量项来稳定更新方向;Lin等人将Nesterov加速梯度应用于迭代攻击以有效前瞻;Gao等人提出补丁式扰动以更好地覆盖图像的判别区域;此外,还有模型增强策略,如Xie等人对输入引入随机变换,Dong等人平移输入图像,Lin等人利用DNNs的尺度不变性平均不同缩放图像的梯度,Zou等人修改DI-FGSM生成多尺度梯度,Wang等人考虑动量优化路径上的梯度方差、平均特征图的梯度、平均混合图像的梯度,Wu等人利用对抗变换网络寻找更好的空间域变换等。
- 基于频率的分析与攻击:已有研究从频域角度分析DNNs,如Wang等人发现DNNs捕捉图像高频成分的能力,Dong等人发现自然训练的模型对高频加性扰动敏感,且高斯数据增强和对抗训练可提高对高频噪声的鲁棒性。同时,也存在基于频域的对抗攻击,如Guo等人提出仅利用图像低频成分的LF攻击,Sharma等人证明基于对抗训练的防御模型对高频扰动不太敏感但仍易受低频扰动影响,Duan等人提出AdvDrop攻击通过在频域丢弃干净图像的现有细节生成对抗样本。与这些仅扰动部分频率成分的工作不同,本文方法旨在通过频域分析缩小模型之间的差距。
- 对抗防御:为减轻对抗样本的威胁,提出了许多对抗防御技术。其中,对抗训练是一种流行且有前景的方法,通过在训练阶段利用对抗样本扩充训练数据来提高模型的鲁棒性,如Tramer等人引入集成对抗训练,Xie等人在网络中注入可对中间特征去噪的模块并在对抗样本上进行端到端训练。然而,对抗训练存在训练成本高的问题,因此许多工作尝试在将数据输入DNNs之前消除对抗扰动的影响,如Guo等人利用多种输入变换,Liao等人提出高级表示引导去噪器,Xie等人通过随机缩放和填充,Cohen等人利用高斯数据增强的分类器等。此外,还有研究尝试结合对抗训练和输入预处理方法的优点来进一步提高DNNs的鲁棒性,如NeurIPS-r3解决方案和Naseer等人设计的神经表示净化器模型。
方法-Methodology
该部分详细介绍了研究的方法,包括任务定义、引入频谱显著性图的动机、频谱变换方法以及整体攻击算法,具体内容如下:
- 任务定义:给定分类模型 f θ : x → y f_{\theta}: x \to y fθ:x→y,目标是生成对抗扰动 δ \delta δ,使对抗样本 x ′ = x + δ x' = x + \delta x′=x+δ 能误导分类器,即 f θ ( x ′ ) ≠ y f_{\theta}(x') \neq y fθ(x′)=y(非针对性攻击),且满足 ∥ δ ∥ ∞ ≤ ϵ \|\delta\|_{\infty} \leq \epsilon ∥δ∥∞≤ϵ。在黑盒攻击场景下,由于无法获取目标模型 f θ f_{\theta} fθ 的参数 θ \theta θ,通常借助可访问的替代模型 f ϕ f_{\phi} fϕ 生成对抗样本,依赖其迁移性攻击目标模型,如I-FGSM算法通过迭代更新生成对抗样本。
- 频谱显著性图:现有模型增强方法常通过空间域变换模拟不同模型,但可能忽略模型间本质差异。不同模型对输入图像的频率成分依赖不同,因此从频域角度引入频谱显著性图 S ϕ S_{\phi} Sϕ 来挖掘模型的敏感点。通过DCT将输入图像 x x x 变换到频域,频谱显著性图定义为模型损失函数 J J J 对输入图像频谱 D ( x ) \mathcal{D}(x) D(x) 的梯度,即 S ϕ = ∂ J ( D I ( D ( x ) ) , y ; ϕ ) ∂ D ( x ) S_{\phi}=\frac{\partial J(\mathcal{D}_{\mathcal{I}}(\mathcal{D}(x)), y ; \phi)}{\partial \mathcal{D}(x)} Sϕ=∂D(x)∂J(DI(D(x)),y;ϕ) ,其中 D I ( ⋅ ) \mathcal{D}_{\mathcal{I}}(\cdot) DI(⋅) 表示IDCT。从可视化结果可知,不同模型的频谱显著性图差异明显,可作为反映特定模型的指标。
- 频谱变换:为缩小替代模型与目标模型的差距,使生成的对抗样本更具迁移性,提出随机频谱变换 T ( ⋅ ) T(\cdot) T(⋅)。该变换结合DCT/IDCT,将矩阵乘法分解为矩阵加法和哈达玛积以获得多样的频谱,公式为 T ( x ) = D I ( ( D ( x ) + D ( ξ ) ) ⊙ M ) \mathcal{T}(x) =\mathcal{D}_{\mathcal{I}}((\mathcal{D}(x)+\mathcal{D}(\xi)) \odot M) T(x)=DI((D(x)+D(ξ))⊙M) ,其中 ξ ∼ N ( 0 , σ 2 I ) \xi \sim N(0, \sigma^{2}I) ξ∼N(0,σ2I) 和 M M M 的各元素分别从高斯分布和均匀分布中采样。理论证明该变换能生成多样的频谱显著性图,有效缩小与目标模型的差距,相比空间域变换更能模拟多样化的替代模型。
- 攻击算法:以S 2 ^2 2I-FGSM算法为例,将频谱变换与I-FGSM相结合。算法主要包括三个步骤:首先,对输入图像 x t ′ x_{t}' xt′ 应用频谱变换 T ( ⋅ ) T(\cdot) T(⋅),使从替代模型获得的梯度 g i ′ g_{i}' gi′ 近似于从新模型获得的结果,实现模型增强;其次,平均 N N N 个增强模型的梯度得到更稳定的更新方向 g ′ g' g′;最后,根据更新方向 g ′ g' g′ 更新迭代 t + 1 t + 1 t+1 的对抗样本 x t + 1 ′ x_{t + 1}' xt+1′ 。通过该过程可生成更具威胁性的对抗样本,用于攻击黑盒模型。
图2:对Inception-v3、Inception-v4、Inception-ResNet-v2和ResNet-152的攻击对比。干净图像的真实标签是美洲白骨顶,在置信度排名前5的分布图中用橙色标记。对抗样本分别由I-FGSM、SI-FGSM以及我们提出的S
2
^2
2I-FGSM通过Inception-v3生成。值得注意的是,我们的方法能够成功攻击白盒模型和所有黑盒模型。
实验-Experiments
该部分通过一系列实验验证频谱模拟攻击方法的有效性,主要涵盖实验设置、攻击不同类型模型、消融研究等方面,具体内容如下:
-
实验设置
- 数据集:选用ImageNet兼容数据集,包含1000张分辨率为299×299×3的图像。
- 模型:选取六个常用的正常训练模型,如Inception-v3、Inception-v4等;九个防御模型,像Inc-v3ens3、HGD等。
- 对比方法:与多种先进攻击方法对比,包括MI-FGSM、DI-FGSM等,还对比了这些方法的组合版本。
- 参数设置:明确各实验参数,如最大扰动 ϵ = 16 \epsilon = 16 ϵ=16 ,迭代次数 T = 10 T = 10 T=10 等,也设定了不同攻击方法的特定参数。
-
攻击正常训练模型:将S 2 ^2 2I-FGSM与MI-FGSM、DI-FGSM、PI-FGSM对比,S 2 ^2 2I-FGSM在所有黑盒模型上的攻击成功率均高于这些基线方法。如攻击Inc-v3时,在IncRes-v2上,MI-FGSM、DI-FGSM和PI-FGSM的攻击成功率分别为47.2%、38.2%和49.6%,而S 2 ^2 2I-FGSM可达58.9%。此外,结合动量项的S 2 ^2 2I-MI-FGSM平均成功率达88.8%,比SI-NI-FGSM、VT-MI-FGSM和FI-MI-FGSM分别高出7.3%、12.2%和6.3%,表明该方法与现有攻击结合可显著提升对抗样本迁移性。
表1:对六个常规训练模型的攻击成功率(%)。对抗样本分别通过Inception-v3、Inception-v4、Inception-ResNet-v2和ResNet-152生成。“*”表示白盒攻击。
-
攻击防御模型
- 单模型攻击:考虑更强的攻击组合作为竞争对手,如TI-DIM等。以Inc-v3为替代模型生成对抗样本攻击九个防御模型,S2I-TI-DIM平均成功率为74.7% ,比TI-DIM的39.0%高出35.7%,凸显了该方法对防御模型攻击的有效性。
表2:对九种防御模型的攻击成功率(%)。对抗样本分别通过Inception-v3、Inception-v4、Inception-ResNet-v2和ResNet-152生成。
- 集成模型攻击:通过集成Inc-v3、Inc-v4、IncRes-v2和Res-152生成对抗样本,S2I-SI-TI-DIM平均成功率达95.4%,比SI-NI-TI-DIM、VT-TI-DIM、FI-TI-DIM和Admix-TI-DIM分别高出23.1%、12.4%、16.1%、17.1%和5.6%,揭示当前防御机制对精心设计的对抗样本仍较脆弱。
表3:对九种防御模型的攻击成功率(%)。对抗样本通过Inception-v3、Inception-v4、Inception-ResNet-v2和ResNet-152的集成模型生成,每个模型的权重为1/4。
- 单模型攻击:考虑更强的攻击组合作为竞争对手,如TI-DIM等。以Inc-v3为替代模型生成对抗样本攻击九个防御模型,S2I-TI-DIM平均成功率为74.7% ,比TI-DIM的39.0%高出35.7%,凸显了该方法对防御模型攻击的有效性。
-
消融研究
- 频域与空间域对比:对比频域和空间域变换对攻击效果的影响,发现基于频域变换的攻击在迁移对抗样本时成功率更高。如攻击Inc-v3时,S 2 ^2 2I-FGSM(频域变换)比基于空间域变换的攻击成功率高15.0%,证明频域能更好捕捉模型差异,生成更多样的替代模型。
-
ξ
\xi
ξ 和
M
M
M 的影响:实验表明
ξ
\xi
ξ 和
M
M
M 均有助于增强对抗样本迁移性,同时利用它们可模拟更多样的替代模型,提升攻击效果。
图3:针对六种常规训练模型(在4.1节中介绍)的平均攻击成功率(%)。对抗样本分别通过Inception-v3(Inc-v3)、Inception-v4(Inc-v4)、Inception-ResNet-v2(IncRes-v2)和ResNet-152(Res-152)生成。左图:频域变换的效果。右图: ξ ξ ξ 和 M M M 的效果。 - DCT/IDCT块大小影响:研究DCT/IDCT块大小对攻击的影响,发现较大块尺寸更适合该方法,当块大小与图像全尺寸相同时,攻击成功率最高,因此实验中直接对全图像应用DCT/IDCT。
图4:S 2 ^2 2I-FGSM 针对不同DCT/IDCT块大小,在常规训练模型(左图)和防御模型(右图)上的攻击成功率(%)。对抗样本通过Inception-v3(Inc-v3)生成。 - 注意力转移:运用Grad-CAM对比干净图像和对抗样本的注意力图,发现该方法可使模型注意力从关键对象转移到不匹配区域,导致模型捕获无关特征而误分类。
图5:注意力转移的可视化。我们对Res-152应用Grad-CAM,以可视化干净图像(第一行)和对抗图像(第二行)的注意力图。对抗样本是通过我们的S 2 ^2 2I - FGSM方法基于Inc-v3模型生成的。结果表明,我们生成的对抗样本能够转移模型的注意力。
结论-Conclusion
该部分总结了研究工作的核心成果、方法优势及研究意义。具体内容如下:
- 研究成果总结:提出频谱模拟攻击方法,从频域角度增强对抗攻击能力。该方法借助一系列频谱变换图像,有效缩小了替代模型与目标模型之间的差距,为模型增强提供了新的研究思路。
- 方法有效性验证:通过详细的消融实验,清晰地展示了方法中各组成部分的作用。大量实验结果表明,与传统空间域模型增强攻击方法相比,所提方法显著提升了攻击效果,在攻击成功率上大幅超越了当前基于迁移的先进攻击方法。
- 研究意义阐述:本研究为对抗攻击领域提供了新的视角和有效方法,对深入理解模型之间的差异以及提高对抗攻击的性能具有重要意义,推动了该领域的研究进展。