【图像对抗攻击】Towards Transferable Adversarial Attacks with Centralized Perturbation

原文标题: Towards Transferable Adversarial Attacks with Centralized Perturbation
原文代码: 暂无
发布年度: 2024
发布期刊: AAAI


摘要

Adversarial transferability enables black-box attacks on unknown victim deep neural networks (DNNs), rendering attacks viable in real-world scenarios. Current transferable attacks create adversarial perturbation over the entire image, resulting in excessive noise that overfit the source model. Concentrating perturbation to dominant image regions that are model-agnostic is crucial to improving adversarial efficacy. However, limiting perturbation to local regions in the spatial domain proves inadequate in augmenting transferability. To this end, we propose a transferable adversarial attack with fine-grained perturbation optimization in the frequency domain, creating centralized perturbation. We devise a systematic pipeline to dynamically constrain perturbation optimization to dominant frequency coefficients. The constraint is optimized in parallel at each iteration, ensuring the directional alignment of perturbation optimization with model prediction. Our approach allows us to centralize perturbation towards sample-specific important frequency features, which are shared by DNNs, effectively mitigating source model overfitting. Experiments demonstrate that by dynamically centralizing perturbation on dominating frequency coefficients, crafted adversarial examples exhibit stronger transferability, and allowing them to bypass various defenses.


背景

对抗性示例的可转移性允许对未知的受害者 DNN 进行跨模型黑盒攻击,即,在一个模型上创建的扰动无需修改即可欺骗另一个模型,从而构成了一种实用的真实模型世界威胁。

现有的可转移对抗攻击是基于梯度的迭代攻击。通过贪婪地积累从白盒源模型获得的梯度信息,这些攻击能够生成可转移的对抗性扰动。然而,当攻击尝试搜索整个输入空间时,所产生的扰动往往会过度拟合源模型,从而产生过多的噪声。

  • 先前工作:
    1.探索了空间域内的扰动约束,提高了白盒攻击的效率和针对模型可解释性方法的有效性。虽然这些尝试不足以实现基于转移的黑盒攻击,但集中扰动的想法是有价值的。
    2.尝试在固定频率约束下制作低频扰动,假设图像中的低频成分对于神经网络的输出具有更大的影响。然而,DNN 对这些区域的响应并不是统一的,也不是一成不变的。不同图像对频率系数的敏感性各不相同,只有较低的频率往往更具影响力。

创新点

在本文中,我们建议设计集中对抗性扰动,包括共享频率分解过程和两个主要的正则化优化策略。频率分解通过 DCT(离散余弦变换)将数据变换为频率系数块。扰动集中是通过对这些系数进行量化来执行的,省略过度的扰动,将优化集中到主导区域。我们最重要的贡献是细粒度量化,通过量化矩阵的后续优化进行控制,保证其与区域灵敏度直接对齐。最后,我们将管道设计为即插即用模块,使我们的策略能够无缝集成到现有最先进的基于梯度的攻击中。

模型

  • 频率系数分解
    1. 将 X 从 RGB 转换为 YCbCr 颜色空间,由 3 个颜色通道组成:亮度通道 Y 以及色度通道 Cb 和 Cr。
    2. 应用通道级全局 DCT 将数据无损地变换到频域。
    3. 使用“blockify”过程将数据重塑为 (8 × 8) 的块。该操作应用于数据的最后两个维度(宽度 W 和高度 H)。
    4. 通过量化矩阵Qs按通道应用量化,省略过多的频率系数。
    5. 执行逆运算,即“块合并”和“IDCT”(逆DCT),将系数重建回RGB图像X’。
      在这里插入图片描述

该过程会将 X 分解为每个 Y/Cb/Cr 通道中的频率系数块。 “blockify”的顺序操作保证了“块合并”的无损反转。这样做,确保程序中的每个阶段都是无损可逆的,从而能够在不丢失信息的情况下进行重建(故意的数据量化除外)。 DCT和IDCT的线性允许在降低的模型空间维数内进行优化的可能性,从而能够有效地优化集中扰动和量化。

  • 集中扰动优化

首先,在迭代 t 处将频率分解应用于 δt。

与JPEG编解码器中使用的量化矩阵不同,我们的量化矩阵定义为 Q = ( q i j ) ∈ { 0 , 1 } m × m Q = (q_{ij}) ∈ \{0, 1\}^{m×m} Q=(qij){0,1}m×m,其中m = 8,并初始化为 Q 0 = 1 Q_0 = 1 Q0=1。通过B⊙Q的分块乘法,每次迭代时都会系统地丢弃影响较小的频率系数。该过程将扰动优化仅限制在对 DNN 预测影响更大的频率区域内。

  • 微分量化优化

直观上,量化矩阵Q在集中频率敏感扰动的过程中具有举足轻重的意义。在本节中,我们深入研究 Q 的建模和优化,以确保其与 DNN 预测的频率系数影响直接对齐。

如图 3 的步骤 2 所示,在此阶段,将优化的 δ′ t 添加到 x 上,以在迭代 t 处获得中间对抗性示例 xadv t 。 xadv t 经过相同的共享频率分解过程,并以与步骤 1 相同的方式进行量化,得到 xadv t '。然后将量化后的 xadv t ’ 反馈到源模型 F (·) 中,从而随后通过反向传播更新 Q。我们利用 xadv t 量化前后源模型的梯度变化将 Q 的更新表述为优化问题。我们的优化目标是:Q 应该以这样的方式量化 xadv t:在每次迭代时,源模型应该不太确信 xadv t 是 y。因此,损失被表述为
在这里插入图片描述
其中 Qt 是优化变量。 Q 分别由每个 Y/Cb/Cr 通道的 QY 、QCb 、QCr 组成,并由 Adam 优化器共同优化来解决此优化问题。

通过这种方法,我们确保(1)Q 准确地反映频率系数对每次迭代的模型预测的影响,从而允许对集中式扰动量化过程进行细粒度控制,以及(2)源模型的梯度在连续的迭代过程中累积迭代,进一步提高可移植性。通过反向传播的过程,Q 通过优化进行迭代更新。我们将优化结果表示为矩阵 P = ( p i j ) ∈ R m × m P = (p_{ij}) ∈ R^{m×m} P=(pij)Rm×m。更新之后,在将 Q 应用到量化过程之前实施舍入函数 R(·)。具体来说,对于 r 的量化比,其中每个 Y/Cb/Cr 通道 0 ≤ r ≤ 1,
在这里插入图片描述
在这里插入图片描述

实验

  • 对抗性可转移性:6 个正常训练的模型被用作黑盒目标模型。图 4 显示了用于攻击黑盒模型的精心设计的对抗性示例的传输欺骗率。当将我们提出的频率扰动集中化策略与基于梯度的攻击相结合时,橙色高于蓝色,对抗性可转移性平均提高了 11.7%。通过将对抗性扰动集中到共享的主导频率区域,我们以更普遍的方式有效地破坏了模型的判断,避免为适应模型特定特征而设计的过度扰动,从而提高了对抗性的可转移性。

  • 防御抵抗:目前,两种类型的防御为神经网络提供了额外的鲁棒性保证层:(1)基于滤波器的防御,其中扰动通过图像变换进行过滤,使用 JPEG 压缩和位深度减少作为对抗方法。表1所示与我们策略集成的攻击都优于其基线。因为它们打算保留主要的图像特征以保持视觉质量,假设扰动位于不重要的区域以确保不易察觉。因此,他们无法消除我们旨在集中于主导区域的扰动,使我们的战略能够绕过这些防御。
    以及(2)对抗性训练,其中模型通过对抗性示例的训练得到加强。优于基线。

  • 量化比率分配的影响:通过评估亮度通道 rY 与色度通道 rCb、rCr 对对抗有效性的影响来解释我们选择比率的基本原理。随着 rY 的增加,愚弄率也呈持续增加趋势。我们推断,发生这种情况是因为亮度通道包含更多的结构信息,与色度通道相比,DNN 通常将其学习为更有用的特征。然而,人类视觉系统也更明显地注意到亮度通道的变化。因此,我们选择 rY = 0.9 来平衡对抗有效性和扰动不可察觉性。

  • 扰动优化的可视化 在图 7 中,我们可视化了 MIFGSM + 我们的方法在 10 次迭代中优化的扰动,从而进一步了解了我们策略的集中优化过程。在迭代 1(步骤 t = 1)中,量化初始化为 Q0 = 1。在 t = 2 时,我们观察到扰动立即下降,表明应用了量化。更进一步(t = 3 到 10),我们发现扰动在每次迭代中逐渐增加,集中在更重要的频率区域。通过确保与模型判断一致的优化一致性,我们的集中扰动成功地利用了图像的主要频率特征。

  • 消融研究 我们对我们提出的集中式扰动优化过程进行了消融研究,这是我们战略的核心。我们考虑了其他 4 种策略:(1) RandA:随机选择在开始时固定的 Qs,(2) RandB:在每次迭代时随机选择 Qs,(3) 低:仅保留低频系数。在表 2 中,相比之下,即使使用基线,RandA 和 RandB 都无法实现可比的对抗有效性。虽然 Low 接近匹配,有时甚至超过我们,但我们的方法在大多数情况下仍然保持优势。我们认为,Low和我们的方法都承认低频区域具有更多的主导特征。然而,我们的策略对中心化过程的精确控制并没有将所有扰动强行限制在连续的低频系数上,而是提高了对抗效果。

  • 27
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Adversarial attacks are a major concern in the field of deep learning as they can cause misclassification and undermine the reliability of deep learning models. In recent years, researchers have proposed several techniques to improve the robustness of deep learning models against adversarial attacks. Here are some of the approaches: 1. Adversarial training: This involves generating adversarial examples during training and using them to augment the training data. This helps the model learn to be more robust to adversarial attacks. 2. Defensive distillation: This is a technique that involves training a second model to mimic the behavior of the original model. The second model is then used to make predictions, making it more difficult for an adversary to generate adversarial examples that can fool the model. 3. Feature squeezing: This involves converting the input data to a lower dimensionality, making it more difficult for an adversary to generate adversarial examples. 4. Gradient masking: This involves adding noise to the gradients during training to prevent an adversary from estimating the gradients accurately and generating adversarial examples. 5. Adversarial detection: This involves training a separate model to detect adversarial examples and reject them before they can be used to fool the main model. 6. Model compression: This involves reducing the complexity of the model, making it more difficult for an adversary to generate adversarial examples. In conclusion, improving the robustness of deep learning models against adversarial attacks is an active area of research. Researchers are continually developing new techniques and approaches to make deep learning models more resistant to adversarial attacks.

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值