ICASSP2024 | FFT | 通过特征空间微调增强目标可转移性_特征空间压缩对抗防御论文2024-CSDN博客

本文链接：https://blog.csdn.net/qq_60090693/article/details/145754140

Enhancing Targeted Transferability via Feature Space Fine-Tuning

摘要-Abstract
引言-Introduction
相关工作-Related Work
提出的方案-Proposed Scheme
实验结果-Experimental Results
结论-Conclusion

本文 “Enhancing Targeted Transferability via Feature Space Fine-Tuning” 提出通过在特征空间中微调对抗样本（AE）来提升其定向转移性，有效缓解现有简单迭代攻击过拟合问题，经实验验证该方法在多种场景下能显著提高攻击转移性。

摘要-Abstract

Adversarial examples (AEs) have been extensively studied due to their potential for privacy protection and inspiring robust neural networks. Yet, making a targeted AE transferable across unknown models remains challenging. In this paper, to alleviate the overfitting dilemma common in an AE crafted by existing simple iterative attacks, we propose fine-tuning it in the feature space. Specifically, starting with an AE generated by a baseline attack, we encourage the features conducive to the target class and discourage the features to the original class in a middle layer of the source model. Extensive experiments demonstrate that only a few iterations of fine-tuning can boost existing attacks’ targeted transferability nontrivially and universally. Our results also verify that the simple iterative attacks can yield comparable or even better transferability than the resource-intensive methods, which rest on training target-specific classifiers or generators with additional data.

对抗样本（AEs）因其在隐私保护方面的潜力以及对构建稳健神经网络的启发而受到广泛研究。然而，使有针对性的对抗样本在未知模型间具有可转移性仍然颇具挑战。在本文中，为了缓解现有简单迭代攻击生成的对抗样本中常见的过拟合困境，我们提出在特征空间中对其进行微调。具体而言，从基线攻击生成的对抗样本开始，我们在源模型的中间层中增强有利于目标类别的特征，抑制与原始类别相关的特征。大量实验表明，仅需进行几次微调迭代，就能显著且普遍地提升现有攻击的有针对性转移性。我们的研究结果还证实，简单迭代攻击能够产生与资源密集型方法相当甚至更好的转移性，而资源密集型方法依赖于使用额外数据训练特定目标的分类器或生成器。

引言-Introduction

这部分主要介绍了研究的背景、目的和创新点，具体内容如下：

研究背景：对抗样本（AEs）的研究对理解深度神经网络（DNN）、发现其漏洞和保护隐私有重要意义，其攻击能力常用转移性衡量。当前已有许多可转移攻击方法，但大多聚焦于无目标攻击，针对有目标攻击的研究较少。有目标攻击要求未知模型输出特定标签，实现其转移性更具挑战性。虽然有资源密集型攻击等方法尝试解决，但存在训练时间长等问题，也有研究通过整合新损失函数与传统简单迭代攻击来提升有目标转移性。
研究目的：简单迭代攻击在有目标攻击时存在严重的过拟合源模型问题，在无目标攻击场景中，除了数据或模型增强策略外，研究人员还采用特征空间干扰来缓解过拟合。受此启发，本文旨在探索在有目标攻击场景下，通过在特征空间中微调现有对抗样本，提升其有目标转移性。
创新点：发现通过在特征空间中微调现有对抗样本，能有效提升其有目标转移性。具体做法是从基线攻击生成的对抗样本出发，在源模型的中间层进行微调，增强与目标类相关的特征，抑制与原始类相关的特征，并将该微调策略与多种先进的简单迭代攻击相结合。实验证明，该方法能显著提升所有相关攻击的有目标转移性。

提出的方案-Proposed Scheme

该部分提出在特征空间对对抗样本（AE）进行微调以提升其定向转移性的方案，包含动机和特征空间微调两方面内容：

动机
- 特征空间攻击的作用与困境：攻击特征空间能缓解AE对源模型的过拟合，提升跨模型转移性。无目标场景中，可通过在特征空间将AE推离干净图像实现攻击；但在有目标模式下，难以找到能完美代表目标类 $y_t$ 的单点，为每个 $y_t$ 训练辅助分类器的策略在类别众多时不实用。
- 简单迭代攻击的潜力：简单迭代攻击生成的AE有较强定向攻击能力，近完美的白盒成功率可证实这一点。若缓解其过拟合问题，转移性有望提升。
- 微调实验及发现：以CE攻击结合TMDI增强生成的AE为例，在源模型ResNet50特定层依据目标版本公式扰动。发现虽不同目标模型曲线差异大，但微调早期目标类置信度均迅速上升，说明少量微调迭代有助于缓解基线攻击生成AE的过拟合问题，进而提升转移性。
  
  图1. 特征空间微调后过拟合问题得到缓解。目标类别是“灰林鸮”，源模型是Res50。(a) 对抗样本，(b) 随着微调进行，“灰林鸮”的置信度变化趋势。步长为1。
特征空间微调
- 操作流程：从良性图像 $I$ 和基线攻击（如CE、Logit）迭代 $N$ 次生成的AE $I^r$ 出发。计算源模型第 $k$ 层到目标标签 $y_t$ 的聚合梯度 $\bar{\Delta}_{k}^{I', t}$ ，以及关于原始标签 $y_0$ 的聚合梯度 $\bar{\Delta}_{k}^{I, o}$ 。按 $\overline{\Delta}_{k, combine }=\overline{\Delta}_{k}^{I', t}-\beta \overline{\Delta}_{k}^{I, o}$ （ $\beta = 0.2$ ）组合得到组合聚合梯度，用于指导后续微调。
- 优化目标与约束：在 $\left\| I_{ft}'-I\right\| _{\infty} \leq \epsilon$ 的约束下，通过优化 $\underset{I_{ft}'}{argmax} \sum\left(\overline{\Delta}_{k, combine } \cdot f\left(I_{ft}'\right)\right)$ 对 $I^r$ 进行 $N_{ft}$ 次（ $N_{ft} \ll N$ ）微调，得到 $I_{ft}'$ 。此过程由算法1总结，能增强目标类相关特征，抑制原始类相关特征。
  
  图2. 特征空间微调概述。给定一个由基线攻击生成的对抗样本，从其内部层（红色方块）提取的特征图会根据公式（7）进一步优化。

实验结果-Experimental Results

该部分通过多种实验设置对比不同攻击方法，验证了特征空间微调方案在提升对抗样本（AE）定向转移性方面的有效性，具体内容如下：

实验设置
- 数据集：使用包含1000张图像的ImageNet兼容数据集，图像在使用前被裁剪为299×299像素。
- 网络模型：选取Inceptionv3（Inc-v3）、Res50、DenseNet 121（Dense121）和VGG16bn（VGG16）四种不同架构的预训练模型评估AE的转移性。
- 参数设置：所有对比方法的扰动均受 $L_{\infty}$ 范数限制， $\epsilon = 16$ ，步长设为2。为使运行时间可比，未微调的基线攻击总迭代数 $N = 200$ ，启用微调时 $N = 160$ ，微调迭代数 $N_{f}=10$ 。选择中间层进行微调，如Inc-v3的Mixed_6b层、Res50和Dense121第三块的最后一层、VGG16的Conv4_3层。
单模型转移
- 随机目标场景：对比了CE、Po+Trip、Logit等五种简单迭代攻击在有无微调情况下的定向转移性。结果显示，所有基线攻击经特征空间微调后转移性均显著提升，CE攻击提升尤为明显，如从Dense121转移到VGG16时成功率几乎增至三倍。对于Inc-v3模型，微调后其作为源模型时的转移成功率至少翻倍。
  表1. 在单模型、随机目标场景下，有无微调的定向转移成功率（%）。最佳结果以粗体显示。
- 最难目标场景：考虑目标标签为最不可能标签的最坏情况转移场景。实验表明，微调后的攻击成功率提升比随机目标场景更显著。且发现当Inc-v3为源模型时，最难目标场景的成功率在微调前后不一定低于随机目标场景。
  表2. 在单模型、最难目标场景下，有无微调的定向转移成功率（%）。
集成模型转移：在集成模型场景中，轮流取出一个模型作为目标，在其余模型的集成上生成AE。结果表明，虽然集成模型场景下AE的转移性相比单模型场景已有显著提升，但本文提出的微调方案仍能进一步提高其转移性。
表3. 集成模型场景下有无微调的定向转移成功率（%），其中“−”表示留出的模型。
迭代与生成式攻击对比：将微调后的简单迭代攻击与当前最先进的生成式攻击TTP对比。结果显示，微调后的Logit+ft和SubHigh+ft攻击在转移性上与TTP相当，在 $\epsilon = 8$ 时甚至优于TTP。此外，迭代方法引入的扰动更像噪声，在人工检查时更不易被察觉。
表4. 以Res50为源模型，经微调的迭代攻击与TTP在10个目标上的平均定向转移成功率（%）（ $\epsilon = 8/16$ ）。

图3. 不同方法生成的对抗样本的视觉对比， $\epsilon = 16$ 。目标类别是“河马”。(a) 原始图像，(b) Logit方法生成的样本，(c) 我们提出的Logit+ft方法生成的样本，(d) TTP方法生成的样本。

结论-Conclusion

这部分总结了研究成果，阐述了方法优势、实验验证结果及简单迭代攻击的潜力，具体如下：

提出方法及优势：提出在特征空间中微调给定对抗样本（AE）的方法来提升其定向转移性。该方法将特征级扰动与简单迭代攻击巧妙结合，在不训练特定目标分类器或生成器的情况下，有效缓解了现有方法的过拟合问题。
实验验证结果：通过将该微调方案与多种先进的迭代攻击方法相结合，并在多种转移场景下进行实验，验证了其优越性。实验结果表明，特征空间微调能显著且普遍地提升现有定向攻击的转移性。
简单迭代攻击的潜力：研究结果还证实，简单迭代攻击在定向转移性方面具有与资源密集型方法相媲美的潜力。资源密集型方法依赖于使用额外数据训练特定目标的分类器或生成器，而简单迭代攻击通过特征空间微调可获得类似甚至更好的转移性。