CVPR2023 | StyLess: 提升对抗样本的可迁移性-CSDN博客

本文链接：https://blog.csdn.net/qq_60090693/article/details/147766795

StyLess: Boosting the Transferability of Adversarial Examples

摘要-Abstract
引言-Introduction
相关工作-Related Work
方法-Methodology
实验-Experiments
结论-Conclusion

在这里插入图片描述

现有可迁移攻击在优化时未区分风格和内容特征，限制了攻击可迁移性。本文 “StyLess: Boosting the Transferability of Adversarial Examples” 提出 StyLess 攻击方法，通过使用风格化代理模型控制风格特征，避免对抗样本依赖非鲁棒的风格特征，显著提高了对抗样本的可迁移性。实验表明，StyLess 在攻击无防护和有防护的黑盒 DNN 时均表现出色，还能与其他攻击技术结合，进一步提升攻击效果。

摘要-Abstract

Adversarial attacks can mislead deep neural networks (DNNs) by adding imperceptible perturbations to benign examples. The attack transferability enables adversarial examples to attack black-box DNNs with unknown architectures or parameters, which poses threats to many realworld applications. We find that existing transferable attacks do not distinguish between style and content features during optimization, limiting their attack transferability. To improve attack transferability, we propose a novel attack method called style-less perturbation (StyLess). Specifically, instead of using a vanilla network as the surrogate model, we advocate using stylized networks, which encode different style features by perturbing an adaptive instance normalization. Our method can prevent adversarial examples from using non-robust style features and help generate transferable perturbations. Comprehensive experiments show that our method can significantly improve the transferability of adversarial examples. Furthermore, our approach is generic and can outperform state-of-the-art transferable.

对抗攻击通过在良性样本上添加难以察觉的扰动，能够误导深度神经网络（DNN）。攻击的可迁移性使得对抗样本能够攻击架构或参数未知的黑盒 DNN，这对许多现实应用构成了威胁。我们发现，现有的可迁移攻击在优化过程中没有区分风格特征和内容特征，限制了其攻击的可迁移性。为了提高攻击的可迁移性，我们提出了一种名为无风格扰动（StyLess）的新型攻击方法。具体而言，我们主张使用风格化网络，而非普通网络作为代理模型，风格化网络通过对自适应实例归一化进行扰动来编码不同的风格特征。我们的方法可以防止对抗样本使用非鲁棒的风格特征，并有助于生成可迁移的扰动。全面的实验表明，我们的方法能够显著提高对抗样本的可迁移性。此外，我们的方法具有通用性，性能优于当前最先进的可迁移攻击方法。

引言-Introduction

该部分主要介绍了研究背景、现有研究的不足以及本文的研究内容和贡献，具体如下：

深度神经网络与对抗攻击：深度神经网络（DNNs）在计算机视觉、自然语言处理等诸多任务中表现卓越，但其容易受到对抗样本的攻击。对抗样本是在良性图像上添加难以察觉的扰动得到的恶意图像，并且具有可迁移性，即同一对抗样本能够成功攻击不同的黑箱DNN，这一特性对现实应用构成了威胁。
图像风格与攻击可迁移性的关系：图像风格可从内容中解耦，稳健的DNN应更依赖数据的内容特征而非风格特征。然而，现有攻击方法在优化过程中未区分代理模型的风格和内容特征，可能会降低攻击的可迁移性。
StyLess攻击方法的提出：为提升攻击可迁移性，文章提出 StyLess（无风格扰动）攻击方法。该方法使用风格化代理模型来控制风格特征，具体是在普通代理模型中添加自适应实例归一化（IN）层创建风格化模型。通过调整 IN 层参数，可改变代理模型的风格特征。实验发现，普通模型的对抗损失增长速度比风格化模型快得多，导致损失差距不断扩大，这意味着当前攻击方法过度依赖普通代理模型的风格特征，而这可能会降低攻击可迁移性。StyLess 方法旨在限制非稳健风格特征的使用，缩小损失差距。
研究贡献：一是引入新视角解释攻击可迁移性，验证了当前迭代攻击在优化过程中越来越多地使用代理模型的风格特征；二是提出 StyLess 攻击方法，通过最小化对原始风格特征的使用来增强可迁移性；三是通过在各种黑箱 DNN 上进行综合实验，证明 StyLess 能显著提高攻击可迁移性，且该方法具有通用性，可与现有攻击技术相结合。

在这里插入图片描述
图1. 我们的 StyLess攻击的总体情况。我们通过使用自适应实例归一化（IN）层，将合成的风格特征注入到代理模型（ $F_{2} \circ F_{1}$ ）中，创建了风格化模型 $F$ 。StyLess 减少了普通代理模型 $F$ 中对非鲁棒风格特征的使用，最终提升了攻击的可迁移性。

方法-Methodology

威胁模型-Threat Model

这部分主要介绍了攻击目标、攻击者能力以及可迁移攻击与黑盒攻击的关系，具体内容如下：

攻击目标：给定一张带有标签 $y$ 的良性图像 $x$ ，基于迁移的攻击旨在依据白盒代理网络 $F$ 生成对抗扰动。一般的攻击目标可表示为 $\max _{\delta} \mathcal{L}(F(x+\delta), y)$ ，同时需满足 $\|\delta\| \leq \epsilon$ ，其中 $\mathcal{L}$ 是对抗损失， $\delta$ 是对抗扰动， $\epsilon$ 是最大扰动大小。
常用的求解框架是迭代快速梯度符号法（I - FGSM），公式为 $x_{adv}^{t + 1} = x_{adv}^{t} + \alpha \cdot sign(\nabla_{x} \mathcal{L}(F(x_{adv}^{t}), y))$ ，其中 $\alpha$ 是学习率，并且会对 $x_{adv}^{t + 1}$ 使用裁剪函数以确保 $\|x_{adv}^{t + 1} - x\| \leq \epsilon$ .
攻击者能力：与先前工作设定相同，攻击者拥有代理模型和一些测试样本，但无法访问目标模型，也不清楚目标模型的网络架构、训练数据或防御策略。特别指出的是，本文的 StyLess 方法不需要任何额外数据集，其涉及的风格特征可从任意图像中提取或在没有任何风格图像的情况下合成。
可迁移攻击与黑盒攻击的关系：可迁移攻击利用代理模型 $F$ 创建能够欺骗未知目标模型的对抗样本，从这个角度来看，可迁移攻击可被视为黑盒攻击。

动机-Motivation

该部分指出了现有可迁移攻击方法的局限性，强调了图像风格特征在攻击中的非稳健性，并阐述了本文通过减少代理模型风格特征使用来提升攻击迁移性的核心思路，具体内容如下：

现有攻击方法的局限：现有可迁移攻击通常依赖对抗损失函数的梯度进行优化，却未考虑损失函数不同组成部分带来的影响。在创建对抗样本时，没有充分意识到应该尽量少地使用代理模型中那些非稳健的特征，这成为限制攻击迁移性的关键因素。
风格特征的非稳健性：对于图像分类任务而言，图像的风格特征相较于内容特征，稳健性较差。例如不同摄影师拍摄同一物体的照片，风格会有所不同，但分类应依据物体的内容特征而非风格特征。然而，现有攻击方法在优化过程中，没有区分代理模型的风格和内容特征，可能导致攻击过度依赖非稳健的风格特征，从而降低了攻击迁移性。
本文的改进思路：为提升攻击迁移性，本文提出在损失函数优化过程中，明确减少对代理模型风格特征的使用。核心做法是模拟各种不包含给定普通代理模型风格特征的代理模型。研究发现，在普通代理模型中插入一个实例归一化（IN）层，能够创建新的风格化代理模型。这种风格化模型可以在不影响模型准确性的前提下，灵活地操作风格特征。现有攻击方法如 MI 和 I-FGSM，仅注重最大化普通模型的损失，导致普通模型的对抗损失增长速度远快于风格化模型，两者损失差距不断扩大，限制了对抗样本在风格化模型上的迁移性。而本文方法旨在通过同时最大化风格化模型和普通模型的损失，有效缩小这一损失差距，进而显著提升攻击迁移性。

在这里插入图片描述
图2. 以RN50为代理模型时，普通网络和风格化网络之间的损失差距。损失越大，攻击性能越好。基线方法中不断扩大的损失差距意味着在风格化模型上的攻击性能滞后。本文提出的 StyLess 方法可以缩小这一差距。

风格化代理模型-Stylized Surrogate Models

该部分主要介绍了风格化代理模型的定义、编码风格的方式，以及风格化损失差距对攻击迁移性的影响和改进思路，具体如下：

编码风格的方式：给定分类器 $F_{2} \circ F_{1}$ 作为代理模型，风格化代理模型被定义为 $\overline{F}_{x_{s}} = F_{2} \circ IN_{x_{s}} \circ F_{1}$ ，其中 $x_{s}$ 是风格输入， $IN_{x_{s}}$ 是由 $x_{s}$ 实例化的 IN 层。
一般的 IN 层定义为 $\mu, \sigma)=\sigma \cdot(\frac{x - \mu(x)}{\sigma(x)})+\mu$ ，基于自适应实例归一化（AdaIN），对输入 $x$ 进行风格化时， $IN_{x_{s}}(x)=\left.IN(x)\right|_{\mu=\mu(x_{s}), \sigma=\sigma(x_{s})}$ 。
在风格化模型 $\overline{F}_{x_{s}}$ 中， $F_{1}$ 作为风格迁移的编码器，在给定风格输入 $x_{s}$ 的情况下，可得到风格化图像 $\bar{x}=D \circ IN_{x_{s}} \circ F_{1}(x)$ ，这意味着 $IN_{x_{s}} \circ F_{1}(x)$ 将 $x_{s}$ 的风格特征编码到了 $\overline{F}_{x_{s}}$ 中。
风格化损失差距对攻击迁移性的影响：为验证对抗攻击在风格化代理模型上的性能，定义风格化损失差距 $\Delta \mathcal{L}=\mathbb{E}_{x_{s} \in \mathcal{D}}[\mathcal{L}(F(x), y)-\mathcal{L}(\overline{F}_{x_{s}}(x), y)]$ ，其中 $F$ 和 $\overline{F}_{x_{s}}$ 分别是普通模型和风格化模型， $x_{s}$ 是风格输入。
假设可以将损失函数 $\mathcal{L}$ 解耦为与内容相关的损失 $\mathcal{L}^{c}$ 和与风格相关的损失 $\mathcal{L}_{x}^{s}$ （普通模型）、 $\mathcal{L}_{x_{s}}^{s}$ （风格化模型），即 $\mathcal{L}=\mathcal{L}^{c}+\mathcal{L}_{x}^{s}$ ， $\overline{\mathcal{L}}=\mathcal{L}^{c}+\mathcal{L}_{x_{s}}^{s}$ ，那么 $\Delta \mathcal{L}=\mathcal{L}_{x}^{s}-\mathcal{L}_{x_{s}}^{s}$ 。
非稳健特征与 $\mathcal{L}_{x}^{s}$ 和 $\mathcal{L}_{x_{s}}^{s}$ 相关，而 $\mathcal{L}^{c}$ 应是其他未知DNN共享的。像 MI 和 I-FGSM 这类方法，其损失差距不断增大，意味着攻击者逐渐侧重于优化仅属于普通代理模型 $F$ 的 $\mathcal{L}_{x}^{s}$ 部分，这就限制了对抗样本在未知风格化模型上的迁移性。
改进思路：为减小 $\Delta \mathcal{L}$ 并提升迁移性，在优化过程中引入 $\mathcal{L}_{x_{s}}^{s}$ 与 $\mathcal{L}_{x}^{s}$ 竞争，以抑制 $\mathcal{L}_{x}^{s}$ 的增长。由于所有这些损失通常是非负的，且满足 $\mathcal{L}^{c} \gg \mathcal{L}_{x}^{s}$ ， $\mathcal{L}^{c} \gg \mathcal{L}_{x_{s}}^{s}$ ，同时存在一个上界 $B$ 使得 $\mathcal{L}<B$ ， $\overline{\mathcal{L}}<B$ （因为对抗扰动需小于给定的 $\epsilon$ ）。
若仅最大化普通损失 $\mathcal{L}$ ， $\mathcal{L}^{c}$ 和 $\mathcal{L}_{x}^{s}$ 都可能增加。因此，本文提议最大化 $\mathbb{E}_{x_{s} \in \mathcal{D}} \mathcal{L}_{x_{s}}^{s}+\mathcal{L}_{x}^{s}+\mathcal{L}^{c}$ ，通过引入多个与风格相关的损失 $\mathcal{L}_{x_{s}}^{s}(x_{s} \in \mathcal{D})$ 与 $\mathcal{L}_{x}^{s}$ 竞争，实现 $\Delta \mathcal{L}$ 的减小。

提出的无风格扰动-Proposed Style-Less Perturbations (StyLess)

该部分提出了 StyLess 方法，介绍了其提升攻击迁移性的原理、生成风格化模型的关键步骤，并给出了具体算法，具体内容如下：

StyLess方法的提出：基于前文分析，为提升攻击迁移性，提出Style-Less Perturbations（StyLess）方法，通过同时优化风格化损失和普通损失，目标函数为 $\max _{\delta} \mathbb{E}_{x_{s} \in \mathcal{D}} \mathcal{L}(\overline{F}_{x_{s}}(x+\delta), y)+\mathcal{L}(F(x+\delta), y)$ 。在优化过程中考虑多个风格化模型的损失，让不同风格相关损失相互竞争，抑制普通模型中与风格相关的非稳健损失增长，从而缩小风格化损失差距，提高对抗样本在不同模型间的迁移性。
生成风格化模型的关键步骤：生成多个风格化模型 $\overline{F}_{x_{s}}$ 的关键在于合成用于公式 $\mu, \sigma)=\sigma \cdot(\frac{x - \mu(x)}{\sigma(x)})+\mu$ 的风格统计量 $\mu$ 、 $\sigma$ ，以获得参数化的 IN 层。文中提出使用缩放和插值的方式模拟多种风格特征，公式为 $\mu=\beta(\lambda \mu_{x}+(1 - \lambda)\mu_{s})$ ， $\sigma=\gamma(\lambda \sigma_{x}+(1 - \lambda)\sigma_{s})$ 。其中， $\mu_{x}$ 、 $\sigma_{x}$ 是 $F_{1}(x)$ 的均值和方差，与良性内容输入 $x$ 相关； $\mu_{s}$ 、 $\sigma_{s}$ 是风格输入 $x_{s}$ 的均值和方差； $\lambda$ 是控制两种风格插值的标量， $\beta$ 和 $\gamma$ 是对合成风格进行缩放的 $c$ 维向量（ $c$ 为风格特征的通道数）。
StyLess攻击算法：该算法的输入包括代理模型 $F$ 、良性样本 $x$ 、迭代次数 $T$ 、最大扰动 $\epsilon$ 、数据增强函数 $\varphi(·)$ 、衰减因子 $\eta$ 、缩放因子 $\beta$ 和 $\gamma$ 、插值因子 $\lambda$ 以及风格化模型的数量 $N$ ，输出为对抗样本 $x_{adv}$ 。算法流程如下：
- 初始化 $x_{adv}=x$ ， $g_{0}=0$ ， $\alpha=\epsilon/2$ .
- 在每次迭代 $t$ 中：先对 $x_{adv}$ 进行数据增强；计算基于普通代理模型 $F$ 的梯度 $\widetilde{g}_{t + 1}$ ；通过公式合成风格统计量，得到风格化模型 $\overline{F}_{x_{s}}$ ，并计算基于该风格化模型的梯度 $\widetilde{g}$ ；将多个风格化模型的梯度累加至 $\widetilde{g}_{t + 1}$ ；计算动量 $g_{t + 1}=\eta \cdot g_{t}+\widetilde{g}_{t + 1}/\|\widetilde{g}_{t + 1}\|_{1}$ ；根据动量更新 $x_{adv}=x_{adv}+\alpha \cdot sign(g_{t + 1})$ .
- 迭代结束后，返回最终的对抗示例 $x_{adv}$ .

在这里插入图片描述

实验-Experiments

这部分主要介绍了实验的设置、对不同模型的攻击结果、与集成方法结合的效果、对Google Cloud Vision API的攻击评估以及消融实验，具体如下：

实验设置：使用ImageNet数据集中随机选择的1000张图像，评估生成的对抗样本对不同黑盒DNN的攻击效果，包括未经过对抗训练的普通模型（如 VGG19、AlexNet 等）和经过对抗训练的安全模型（如 $IncV3_{ens3}$ 、 $IncV3_{ens4}$ 等）。代理模型选用VGG19、RN50等。以 I-FGSM 为初始基线，与 MI、DI 等六种可迁移攻击方法对比。设置最大扰动大小 $\epsilon = 16/255$ ，优化步长 $\alpha=\epsilon/2$ ，迭代次数 $T = 50$ ，StyLess 每次迭代模拟10个风格化模型。
攻击未防护模型：StyLess 在攻击未防护的黑盒DNN时表现出色，能显著提升基线攻击的成功率。例如，在以 RN50 为代理模型攻击IncV3时，基线攻击I的成功率从46.2%提升到68.3%，MI 从59.2%提升到78.9%。StyLess还可与其他攻击技术结合，进一步提高攻击成功率，如在 RN50⇒IncV3 攻击中，与 MDI、MTDI 等结合分别提升攻击成功率8.0%、8.2%等。
表1. 使用 StyLess 攻击无防护黑盒模型的情况。
攻击防护模型：在攻击经过对抗训练的安全模型时，StyLess同样有效提升攻击性能。如在 WRN101⇒IncV3 $_{ens3}$ 攻击中，MTDSI的成功率从91.6%提升到97.5% ，表明StyLess在面对更具挑战性的安全模型时，仍能显著增强攻击迁移性。
表2. 使用StyLess攻击三个有防护黑盒模型的情况。代理模型为RN50或WRN101。

图3. 在不同黑盒模型和防御机制下与LinBP方法的比较。代理模型为RN50。
与集成方法结合：将StyLess与基于集成的攻击方法相结合，能进一步提升攻击迁移性。使用RN50、WRN101和DN121的集成作为代理模型，实验结果显示，StyLess可显著提升集成攻击的成功率。如在 $IncV3_{ens3}$ 攻击中，集成MTDI的攻击成功率为92.7%，结合StyLess后提升到98.5%。
表3. 与基于集成的攻击方法相结合的情况。
攻击Google Cloud Vision API：以 Google Cloud Vision API 为真实应用场景进行评估，使用 ResNet50 作为代理网络，对比基线方法 MTDSI 和 StyLess。结果表明，MTDSI-StyLess 的攻击成功率达85.2%，比基线 MTDSI 的75.6%提高了9.6%，证明了基于迁移的黑盒攻击对现实应用的威胁，以及 StyLess 提升攻击迁移性的有效性。
消融实验：通过四项消融实验研究了不同因素对 StyLess 攻击效果的影响：
- IN层插入位置：在代理网络浅层插入 IN 层通常能获得最佳攻击成功率，如使用 WRN101 作为代理网络时，在层十之前插入合成风格较好，而在最后几层插入效果较差。
  
  图4. 关于使用哪个网络层合成风格的消融研究。代理网络是WRN101和DN121。
- 风格化模型数量：每次攻击迭代使用6-10个风格化模型时 StyLess 效果较好，数量过少可能无法有效提升攻击成功率，如 DI 与 StyLess 结合攻击 $IncResV2_{ens}$ ，模型数量小于3时效果不如基线。
  
  图5. 关于攻击迭代中风格化模型数量的消融研究。代理网络为RN50。
- 模型清洁损失：注入合成风格特征不应显著影响清洁损失，否则攻击成功率会下降，说明生成风格化模型时保持较好的清洁精度很重要。
  
  图6. 研究合成的风格特征如何影响清洁损失，进而影响攻击成功率。星号数量表示原始风格特征的变化程度。
- 风格特征统计量：风格特征的方差比均值对对抗攻击更重要，如以RN50为代理网络时，单独修改方差相关参数 $\gamma$ 可使攻击成功率提升约5%。
  
  图7. 不同风格统计量的影响。

结论-Conclusion

这部分总结了研究成果，强调了StyLess方法的优势与意义，具体内容如下：

现有攻击方法的问题：分析了攻击迁移性机制，发现现有攻击方法在迭代优化过程中，越来越依赖代理模型的风格特征，而风格特征具有非稳健性，这一现象严重阻碍了攻击的迁移性。
StyLess方法的优势：提出的StyLess攻击方法，通过减少对原始风格特征的依赖，有效提升了对抗样本的迁移性。该方法使用风格化代理模型替代普通代理模型，在优化过程中限制非稳健风格特征的使用，实验结果表明，StyLess在提升攻击迁移性方面效果显著，大幅超越现有攻击方法。
StyLess方法的通用性与创新性：StyLess具有通用性，能够与其他攻击方法相结合，进一步增强攻击效果。它代表了一种与以往可迁移攻击方法不同的范式，为后续对抗攻击的研究和理解提供了新的思路和方向，有望在未来的相关研究中发挥重要作用，推动该领域的发展。