NDSS2024 | TAA-Bench | 可迁移对抗攻击的基准

本文链接：https://blog.csdn.net/qq_60090693/article/details/145964106

Benchmarking Transferable Adversarial Attacks

摘要-Abstract
引言-Introduction
问题定义-Problem Definition
知识系统-Systemization of Knowledge
TAA-Bench
结论-Conclusion

本文 “Benchmarking Transferable Adversarial Attacks” 全面回顾了对抗攻击迁移性相关方法，提出基准框架 TAA - Bench，整合多种攻击方法，为跨模型架构的对比分析提供平台，推动该领域研究发展。

摘要-Abstract

Abstract—The robustness of deep learning models against adversarial attacks remains a pivotal concern. This study presents, for the first time, an exhaustive review of the transferability aspect of adversarial attacks. It systematically categorizes and critically evaluates various methodologies developed to augment the transferability of adversarial attacks. This study encompasses a spectrum of techniques, including Generative Structure, Semantic Similarity, Gradient Editing, Target Modification, and Ensemble Approach. Concurrently, this paper introduces a benchmark framework TAA-Bench, integrating ten leading methodologies for adversarial attack transferability, thereby providing a standardized and systematic platform for comparative analysis across diverse model architectures. Through comprehensive scrutiny, we delineate the efficacy and constraints of each method, shedding light on their underlying operational principles and practical utility. This review endeavors to be a quintessential resource for both scholars and practitioners in the field, charting the complex terrain of adversarial transferability and setting a foundation for future explorations in this vital sector.

深度学习模型抵抗对抗攻击的鲁棒性仍然是一个关键问题。本研究首次对对抗攻击的可迁移性方面进行了详尽的综述。它系统地对为增强对抗攻击可迁移性而开发的各种方法进行了分类和批判性评估。本研究涵盖了一系列技术，包括生成结构、语义相似性、梯度编辑、目标修改和集成方法。同时，本文介绍了一个基准框架TAA-Bench，它整合了十种领先的对抗攻击可迁移性方法，从而为跨不同模型架构的对比分析提供了一个标准化和系统化的平台。通过全面审视，我们阐述了每种方法的效果和局限性，揭示了它们潜在的操作原理和实际效用。这篇综述旨在成为该领域学者和从业者的重要资源，勾勒出对抗可转移性的复杂领域，并为这一重要领域的未来探索奠定基础。

引言-Introduction

这部分内容主要介绍了研究背景、对抗攻击的分类，引出可转移性对抗攻击（TAA），并说明了对其缺乏系统回顾研究，进而阐述本文的研究目的和主要贡献。具体内容如下：

研究背景：近年来，对抗攻击成为人工智能和机器学习领域的重要研究方向，尤其是在深度学习安全方面。其源于深度神经网络对输入数据细微扰动敏感，即使人眼难以察觉的变化也可能导致模型输出错误结果。
对抗攻击分类：根据对模型数据的获取情况，对抗攻击分为白盒攻击和黑盒攻击。白盒攻击可获取模型内部信息，黑盒攻击则在不了解模型内部信息的情况下进行，更贴近现实场景。从技术角度，黑盒攻击又可分为基于查询的攻击和可转移性对抗攻击。基于查询的攻击需多次向目标模型发送请求以推断和构建近似模型来攻击，但这种方式降低了攻击的隐蔽性。
引出TAA：本文重点关注可转移性对抗攻击（TAA），该方法利用替代模型生成对抗样本攻击目标模型。由于深度学习模型的泛化特性，这些对抗样本常能成功误导目标模型，且无需直接访问或查询目标模型，提高了攻击的隐蔽性和实用性。
研究目的与贡献：尽管近年来对TAA研究广泛，但缺乏全面系统的回顾研究。本文旨在系统回顾和分类现有经典及最新的TAA方法，从多维度进行研究，并将其分为生成架构、语义相似性、梯度编辑、攻击目标修改和集成类型等类别，同时引入基线方法进行比较。此外，重现10种有代表性的TAA方法并将其集成到开源基准框架TAA - Bench（代码发布在GitHub上），以促进相关研究。主要贡献为全面整理现有TAA方法并分析其实现原理，提供可扩展、模块化的开源基准框架TAA - Bench.

问题定义-Problem Definition

该部分聚焦于对抗攻击转移性研究中的问题定义，核心是生成满足特定条件的扰动样本，具体内容如下：

研究目标：旨在生成轻微扰动的输入样本 $x^{'}$ ，实现对黑盒目标深度学习模型的误分类，同时保证扰动对人类不可察觉。
涉及要素：包含替代深度学习模型 $f$ （参数为 $\theta$ ）、黑盒目标深度学习模型 $f^{'}$ 、代表性输入样本 $x$ 及其真实标签 $y$ ，以及小扰动幅度 $\epsilon$ 。
条件设定：需找到扰动 $\delta$ ，使 $\delta$ 满足两个条件。一是 $\neq y$ ，即目标模型对 $x^{'}$ 的预测结果不是真实标签 $y$ ；二是扰动幅度 $\delta$ 在给定阈值 $\epsilon$ 内，确保 $x^{'}$ 与原始样本 $x$ 对人类而言难以区分。

知识系统-Systemization of Knowledge

表一. 对抗攻击策略的对比分析
在这里插入图片描述

基线方法-Baseline approaches

这部分内容主要介绍了在研究可转移性对抗攻击时所选用的基线方法——迭代快速梯度符号法（I - FGSM），具体内容如下：

基线方法选择的重要性：在研究可转移性对抗攻击时，选择合适的基线方法对于评估攻击技术至关重要。
I - FGSM的选择原因：本研究选择I - FGSM作为基线方法，它是FGSM的增强版本，通过迭代优化生成更有效的对抗样本。由于其未针对攻击转移性进行专门优化，因此能为评估其他方法提供统一的基准。若其他方法在转移性上表现优于I - FGSM，则意味着该方法的攻击效果得到了增强。
I - FGSM的原理：I - FGSM基于快速梯度符号法进行迭代操作。从输入 $x_0$ 开始，每次迭代计算当前样本 $x_i$ 相对于损失函数 $L$ 的梯度，目的是最大化损失从而诱导模型误分类。根据梯度符号进行调整，更新公式为 $x_{i + 1} = x_i + \epsilon \cdot sign(\nabla_x L(\theta, x_i, y))$ ，其中 $\epsilon$ 控制扰动幅度， $\theta$ 代表模型参数， $y$ 是真实标签，且每次更新时各像素的更新大小由梯度方向引导保持一致。当达到预设的迭代次数或成功使模型误分类时，整个过程结束。此外，还提到了 $x_{f_{i}}$ 是通过频域探索生成的样本。

生成架构-Generative Architecture

该部分主要介绍了生成架构类的对抗攻击方法，这类方法借助生成对抗网络（GANs）来生成对抗样本，具体包含AdvGAN和GE - AdvGAN两种方法：

AdvGAN
- 核心原理：基于生成对抗网络，由生成器和判别器构成。生成器负责创建细微扰动并添加到原始输入数据上，生成伪造样本；判别器用于区分真假样本，生成的伪造样本会由目标神经网络评估分类效果。AdvGAN生成的对抗样本旨在欺骗目标网络进行错误分类，同时保证人类难以察觉。
- 目标函数：通过平衡生成对抗样本和欺骗模型这两个目标来确定总损失，公式为 $_{G} max _{D} \mathbb{E}_{x, y \sim data }[log D(x)+log (1 - D(G(x)))+\lambda L(f(G(x)), y)]$ 。其中， $\lambda$ 是平衡两个目标的权重系数，此方法能生成与真实样本极为相似但可误导目标模型的对抗样本。
GE - AdvGAN
- 改进之处：相较于AdvGAN，GE - AdvGAN在可转移性和算法效率上都有优化。核心在于对生成器训练过程中梯度更新方法的改进，引入了梯度编辑（GE）机制，借助频域探索确定梯度编辑方向。
- 优势：这种优化使得GE - AdvGAN能生成高转移性的对抗样本，同时显著缩短生成样本的执行时间。在计算生成器损失时，其将AdvGAN中控制攻击部分的梯度项 $\frac{\partial(x + G(x))}{\partial G(x)}$ 替换为 $(\frac{1}{N} \sum_{i = 1}^{N} \frac{\partial L(x_{f_{i}}, y)}{\partial x_{f_{i}}})$ .

语义相似性-Semantic Similarity

该部分主要介绍了基于语义相似性的对抗攻击方法，核心思想是通过寻找语义相关样本进行攻击来扩展对抗攻击的可转移性，具体介绍了以下几种方法：

DI - FGSM（多样化输入快速梯度符号法）
- 核心原理：在生成对抗样本过程中引入输入多样性以寻找语义相似性。通过在每次迭代时对输入图像进行随机变换（如缩放和填充），产生多样化的输入模式，防止模型过度拟合特定网络参数，增强生成的对抗样本对不同模型的有效性。
- 操作过程：假设原始输入图像为 $x$ ，初始化对抗样本 $x_{0}' = x$ . 在每次迭代 $i$ 时，对当前对抗样本 $x_{i}'$ 应用随机变换 $T$ 得到 $\tilde{x}_{i}' = \tau(x_{i}')$ ，然后计算损失函数 $L(f(\tilde{x}_{i}'), y)$ 关于 $\tilde{x}_{i}'$ 的梯度，最后使用该梯度更新对抗样本： $x_{i + 1}' = x_{i}' + \epsilon \cdot sign(\nabla_{x_{i}'} L(f(\tilde{x}_{i}'), y))$ ，其中 $\epsilon$ 是步长，通过重复此过程提高对抗样本的可转移性。
SI - NI - FGSM（尺度不变Nesterov迭代快速梯度符号法）
- 核心原理：该算法集成了尺度不变性（SIM）和Nesterov迭代法（NIM），在快速梯度符号法（FGSM）基础上，通过引入NIM预测梯度的未来变化，更精确地更新对抗样本；同时调整输入图像的尺度以保持尺度不变性，提高攻击在不同模型间的可转移性。
- 操作过程：首先利用Nesterov方法对输入样本进行预更新，公式为 $\alpha \cdot v$ ，其中 $x$ 是当前样本， $v$ 是累积梯度， $\alpha$ 是预更新步长。接着计算预更新点的梯度 $\nabla_{x} L(\theta, x', y)$ ，并更新动量 $\mu \cdot v + g$ ，最后使用 $\epsilon \cdot sign(v)$ 更新样本。在生成对抗样本时，调整输入图像的尺度，确保生成的扰动对不同尺度的图像保持相同效果。
SSA（频谱模拟攻击）
- 核心原理：在频域中模拟不同模型，通过对输入图像的频谱特征进行变换，生成多样的频谱显著性图，以此模拟替代模型的多样性，同时在频域中随机掩蔽特征，识别并利用相似语义，实现攻击的可转移性。
- 操作过程：首先使用离散余弦变换（DCT）将输入图像从空间域转换到频域，数学表示为 $D(x) = AxA^{T}$ ，其中 $A$ 是正交矩阵。然后引入频谱显著性图 $S_{\phi}=\frac{\partial L(D_{I}(D(x), y ; \phi)}{\partial D(x)}$ ， $D_{I}$ 是逆DCT变换，用于将频域数据转换回空间域。最后采用随机频谱变换 $T(x)=D_{I}(D(x)+D(\xi) \odot M)$ ，其中 $\odot$ 表示哈达玛积， $\xi$ 和 $M$ 分别是从高斯分布和均匀分布中随机采样的变量，通过这种变换生成多样的频谱显著性图，模拟不同替代模型，增强对抗样本的可转移性。
CPA（集中扰动攻击）
- 核心原理：通过在深度神经网络（DNN）的频域上进行精确的扰动优化，增强对抗攻击的可转移性。该方法先利用DCT将数据分解到频域，便于探索相似语义；然后对每个Y/Cb/Cr通道进行量化，减少不必要的扰动，将优化集中在影响模型预测的主要频率系数上；最后通过反向传播优化差分量化矩阵，使扰动集中在主导频率区域。
- 优势：关键在于有效集中和优化扰动，提高对抗样本的可转移性以及绕过防御机制的能力。
FDUAA（特征破坏性通用对抗攻击）
- 核心原理：通过破坏不依赖于特定模型架构的特征（如边缘或简单纹理）来生成通用可转移的对抗扰动（UAPs）。具体做法是通过目标函数，按照特定策略削弱重要通道特征，增强不太显著的特征；利用小批量输入的平均梯度迭代更新UAPs，以捕获局部信息；引入动量项累积迭代步骤中的梯度信息，感知整个训练集的全局信息。
SIA（结构不变攻击）
- 核心原理：基于对图像应用一系列随机变换，以创建具有结构特征的多样对抗样本。该方法对图像进行分块处理，对每个块应用旋转、缩放等随机图像变换，增加样本的多样性并寻找相似语义，在保持原始图像基本结构的同时，生成能够有效欺骗深度神经网络的对抗样本。
- 优势：关键在于通过引入变换增强样本的可转移性，同时维持图像的结构完整性。
FSPS（基于频率的驻点搜索）：这是一种旨在增强机器学习中对抗攻击可转移性的新算法，围绕在损失曲线上识别驻点（损失函数导数为零的点），并从这些点执行基于频率的搜索展开。以驻点为攻击起点，在其附近通过基于频率的搜索方法寻找最有效的对抗方向。

梯度编辑-Gradient Editing

这部分内容聚焦于通过修改或优化梯度信息来生成对抗样本的方法，即梯度编辑类对抗攻击方法，介绍了其中两种代表性方法：

MI - FGSM（动量迭代快速梯度符号法）
- 核心改进：在迭代过程中融入动量项，目的是稳定更新方向并避免陷入局部最大值，以此生成更具转移性的对抗样本。
- 具体操作：设置对抗扰动率 $\alpha$ ，它与总扰动限制 $\epsilon$ 和迭代次数 $T$ 成比例。从原始输入 $x$ 开始，初始化零向量作为动量起始值。在每次迭代时，先计算当前对抗样本 $x_{t}$ 的损失函数梯度 $\nabla_{x}L(x_{t}, y)$ ，接着将该梯度与前一次的动量 $g_{t}$ 结合（由动量因子 $\mu$ 加权）来调整下一次更新的方向，更新动量公式为 $g_{t + 1}=\mu \cdot g_{t}+\frac{\nabla_{x}L(x_{t}, y)}{\left\|\nabla_{x}L(x_{t}, y)\right\|_{1}}$ 。动量的作用是在整个优化过程中保持方向的稳定性，有效避免陷入局部最优解。最后，使用 $x_{t + 1}=x_{t}+\alpha \cdot sign(g_{t + 1})$ 迭代生成新的对抗样本。
TGR（Token梯度正则化）
- 适用场景与原理：这是专门针对Vision Transformers（ViTs）设计的对抗攻击方法。它通过在训练过程中减少梯度方差来增强攻击效果，利用ViTs的内部结构特征，缩小令牌间的梯度差异，进而调整模型对特定对抗样本的敏感性。
- 攻击效果：使得生成的对抗样本在转移攻击不同ViT模型时，更有可能误导模型做出错误判断。实验表明，TGR在针对各种ViT和CNN模型的对抗攻击场景中，都展现出较高的攻击有效性和转移性。

目标修改-Target Modification

这部分内容介绍了目标修改类对抗攻击方法，这类方法利用不同模型间的相似特征，通过直接攻击这些特征实现可转移的攻击目标，具体包含以下几种方法：

FIA（特征重要性感知攻击）
- 核心原理：通过针对对模型决策有显著影响的关键对象感知函数来实现攻击转移性。传统方法因不加区分地扭曲特征，易导致过拟合且转移性受限。FIA引入聚合梯度方法，对一批随机变换后的图像梯度求平均，突出与对象相关的特征，弱化模型特定特征。
- 攻击优势：利用这种梯度信息指导对抗样本生成，干扰关键特征，从而提升对抗样本在不同模型间的转移性。
NAA（神经元归因攻击）
- 核心原理：先将模型输出全面归因到中间层的每个神经元，再基于两个假设（多数传统DNN模型的前半部分特征提取层和后半部分决策层相互独立，且这两部分的梯度序列协方差为零），通过近似计算大幅降低计算成本，快速且相对准确地评估神经元重要性。
- 操作过程：使用公式 $A_{yj}=\sum(x_{i}-x_{i}') \int_{0}^{1} \frac{\partial F}{\partial y_{j}}(y(x_{\alpha})) \frac{\partial y_{j}}{\partial x_{i}}(x_{\alpha}) d\alpha$ 计算神经元归因，简化后为 $A_{yj} ≈\Delta y_{j} \cdot IA(y_{j})$ 。最后，以最小化加权归因 $WA_{y}=\sum_{A_{yj} ≥0} f_{p}(A_{yj})-\gamma \cdot \sum_{A_{yj} ≤0} f_{n}(-A_{yj})$ 为目标生成扰动，调整输入图像，降低模型输出对正特征的依赖，增强负特征的影响，提高可转移对抗样本的性能。
DANAA（双对抗神经元归因攻击）
- 核心原理：基于双对抗神经元归因更新扰动，通过非线性路径更精确地评估中间层神经元的重要性。
- 攻击优势：将模型输出归因到中间层神经元，衡量每个神经元的权重，保留对转移性更关键的特征，从而提升对抗攻击的转移性。
MIG（动量积分梯度）
- 核心原理：利用集成梯度归因生成对抗扰动，集成梯度在不同模型间具有更高相似性。同时结合动量策略，通过累积过往迭代的集成梯度优化扰动更新。
- 操作过程：从初始零扰动 $\delta_{0}=0$ 开始，每次迭代计算当前输入图像相对于模型的损失函数梯度 $\nabla_{x} L(f(x+\delta_{t}), y)$ ，并与之前迭代积累的动量 $m_{t}$ 结合，按公式 $m_{t + 1}=\mu \cdot m_{t}+\frac{\nabla_{x} L(f(x+\delta_{t}), y)}{\left\|\nabla_{x} L(f(x+\delta_{t}), y)\right\|_{1}}$ 更新动量，其中 $\mu$ 为动量因子。然后用积累的动量 $m_{t + 1}$ 按 $\delta_{t + 1}=\delta_{t}+\alpha \cdot sign(m_{t + 1})$ 更新当前扰动， $\alpha$ 为步长。通过迭代逐步构建更具转移性的对抗扰动。

集成方法-Ensemble Approach

这部分内容介绍了集成方法类别下的对抗攻击方法，该方法结合多个模型的查询来增强对抗攻击的转移性，但在实际应用中获取多个替代模型存在挑战。主要包含以下两种方法：

Ens（模型集成攻击）
- 核心思想：由Liu等人提出，通过集成多个白盒模型来生成更具转移性的对抗样本，优化多个白盒模型的集合，使其生成的对抗样本能够欺骗其他黑盒模型。
- 实现方式：给定 $k$ 个具有softmax输出 $J_{1}$ 到 $J_{k}$ 的白盒模型、原始图像 $x$ 及其真实标签 $y$ ，该方法通过求解优化问题 $argmin_{x}-log (\sum_{i = 1}^{k} \alpha_{i} J_{i}(x)) \cdot 1_{y}+\lambda d(x, x')$ 来生成对抗图像。其中， $y$ 是攻击者指定的目标标签， $\alpha_{i}J_{i}(x)$ 代表集成模型， $\alpha_{i}$ 是集成权重（满足 $\sum_{i = 1}^{k} \alpha_{i}=1$ ），目标是生成对额外黑盒模型 $J_{k + 1}$ 也保持对抗性的图像。该方法不仅对单个模型有效，还能跨不同模型攻击，具有很强的转移性。
SVRE（随机方差减少集成攻击）
- 改进原因：在传统模型集成攻击中，攻击者简单合并多个模型的输出，忽略了模型间梯度方差的差异，容易导致陷入局部最优解。
- 核心原理与操作：SVRE通过两级循环的方式减少梯度方差。外层循环计算所有模型的平均梯度，并将当前样本传递给内层循环；内层循环进行多次迭代更新，每次迭代在随机选择的模型上计算当前梯度，并根据外层循环的梯度偏差进行调整。这种方式使得外层循环的梯度更新更准确，避免对集成模型的“过拟合”，增强了对抗样本对未知模型的转移性。

TAA-Bench

这部分内容主要介绍了用于对抗攻击转移性研究的基准框架TAA-Bench，涵盖算法实现和代码库两方面，具体如下：

算法实现：TAA-Bench选取10种不同的对抗攻击方法作为当前解决方案，这些方法包括经典方法和前沿方法。经典方法作为基线，用于衡量其他新改进算法的进展。选择这些方法的原因是它们在相关研究中实用性强且可重复性高，排除了那些因超参数过多导致结果不确定和实现困难的算法。TAA-Bench旨在让对抗攻击转移性（TAA）方法的使用更简单实用，以方便深入分析，并且会持续纳入最新研究成果，以体现其局限性。
代码库：代码库具有可扩展和模块化的特点，由三个模块构成：
- 配置模块：包含一个YAML文件，用于定义实验参数。该模块清晰列出网络规格、算法超参数等变量，有助于进行可适应、可重复的实验，符合科学研究对实验可重复性的要求。
- 攻击模块：采用模块化架构，封装了所有的对抗攻击方法。这方便未来研究人员进行代码审查或添加新方法，为模拟和分析可转移性对抗攻击方法的性能提供了通用且动态的工具包。
- 网络模型模块：集成了十种经典的PyTorch模型结构，如Inception-v3、ResNet-50等。这些模型确保所有攻击方法能在相同结构下进行全面测试，保证了对比实验的公平性。研究人员还可以在此模块中添加特定模型结构进行评估和测试。

结论-Conclusion

这部分内容总结了论文在对抗攻击转移性研究方面的主要成果，并对未来研究方向进行了展望。具体内容如下：

研究成果总结：论文全面回顾和基准测试了对抗攻击转移性的前沿技术，深入分析和分类了多种方法，涵盖生成结构、语义相似性等多个类别。通过TAA - Bench基准框架对10种不同的对抗攻击方法进行评估，在不同模型架构下综合分析了它们的有效性，为机器学习安全领域提供了有价值的见解。
未来研究展望：计划持续拓展TAA - Bench基准框架，纳入数据分析方法，如可解释性分析，对重现的所有方法进行更全面的评估。期望通过这些研究，在对抗攻击转移性领域取得新发现，推动该领域进一步发展。