【对抗攻击转移性】Boosting Adversarial Transferability by Block Shuffle and Rotation

原文标题: Boosting Adversarial Transferability by Block Shuffle and Rotation
原文代码: https://github.com/Trustworthy-AI-Group/BSR
发布年度: CVPR
发布期刊: 2024


摘要

Adversarial examples mislead deep neural networks with imperceptible perturbations and have brought significant threats to deep learning. An important aspect is their transferability, which refers to their ability to deceive other models, thus enabling attacks in the black-box setting. Though various methods have been proposed to boost transferability, the performance still falls short compared with white-box attacks. In this work, we observe that existing input transformation based attacks, one of the mainstream transfer-based attacks, result in different attention heatmaps on various models, which might limit the transferability. We also find that breaking the intrinsic relation of the image can disrupt the attention heatmap of the original image. Based on this finding, we propose a novel input transformation based attack called block shuffle and rotation (BSR). Specifically, BSR splits the input image into several blocks, then randomly shuffles and rotates these blocks to construct a set of new images for gradient calculation. Empirical evaluations on the ImageNet dataset demonstrate that BSR could achieve significantly better transferability than the existing input transformation based methods under single-model and ensemble-model settings. Combining BSR with the current input transformation method can further improve the transferability, which significantly outperforms the state-of-the-art methods.


背景

这是在一个模型上生成的对抗性示例不仅能够欺骗受害者模型,还能欺骗其他模型的能力,使它们适合黑盒攻击。然而,现有的攻击方法表现出出色的白盒攻击性能,但可转移性相对较差,这限制了它们攻击现实应用程序的功效。

最近,出现了几种增强对抗性可转移性的方法,包括将动量纳入基于梯度的攻击、同时攻击多个模型、在梯度之前变换图像计算,并利用受害者模型特征。其中,基于输入变换的方法修改输入图像以进行梯度计算,在提高可迁移性方面表现出显着的有效性。然而,我们发现所有现有的基于输入转换的攻击都会在不同的模型上产生不同的注意力热图。注意力热图的这种差异可能会限制对抗性转移的程度。注意力热图突出显示了分类的关键区域。受此启发,我们的目标是保持不同模型中对抗性示例的注意力热图的一致性。由于我们只能访问单个白盒模型进行攻击,因此我们最初探索破坏注意力热图的方法。

创新点

我们可以通过随机打乱图像的划分块来破坏图像内部的内在关系,从而导致与原始图像相比不同的注意力热图。基于这一发现,我们提出了一种新颖的基于输入变换的攻击,称为块洗牌和旋转(BSR),它优化了多个变换图像上的对抗性扰动,以消除各种模型上注意力热图之间的差异。具体来说,BSR将图像随机划分为多个块,随后对这些块进行打乱和旋转以创建新图像以进行梯度计算。为了消除随机变换的方差并稳定优化,BSR在多张变换图像上采用平均梯度。

总之,我们强调我们的贡献如下: • 我们表明,打破图像的内在关系可以破坏深度模型的注意力热图。 • 我们提出了一种称为块洗牌和旋转(BSR)的新颖攻击,这是第一个基于输入转换的攻击,旨在破坏注意力热图以实现更好的可转移性。 • 对 ImageNet 数据集的实证评估表明,BSR 比基于最先进的输入转换的攻击实现了更好的可转移性。 • BSR 与其他基于转移的攻击兼容,并且可以相互集成以进一步提高对抗性可转移性。

模型

  • 引言

给定一个带有参数 θ 的受害者模型 f 和一个带有真实标签 y 的干净图像 x,攻击者的目标是生成一个与原始图像 x 无法区分的对抗性示例 xadv(即 ∥xadv − x∥p ≤ ε),但是可以欺骗受害者模型f(xadv;θ)̸=f(x;θ)=y。这里ε是扰动预算,∥·∥p是lp范数距离。攻击目标:
![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/ff73e946dcf1478292aa92df63d04b80.png#pic_center =360)
其中 J(·) 是相应的损失函数。然后通过在梯度符号方向添加小扰动来更新良性样本:
![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/52367f0768804f95bba1b400678adb97.png#pic_center =360)
FGSM 可以有效地制作对抗性示例,但攻击性能较差。因此,I-FGSM将 FGSM 扩展为迭代版本,通过添加步长 α 的小扰动来迭代更新对抗性示例:
![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/b4bee5cbe5524522a2cf53bcdd205709.png#pic_center =360)

其中 xadv 0 = x。考虑到 IFGSM 的可迁移性较差,MI-FGSM 将动量集成到梯度中,以获得更多可迁移的对抗性示例:
![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/b6676f4ece8e47deb333309eafc5eff9.png#pic_center =360)

动机

虽然不同的模型可能具有不同的参数和架构,但它们在图像识别任务中学习到的特征通常有共同的特征。直观上,当对抗性示例的注意力热图在各种模型中表现出一致性时,预计会产生更好的对抗性可迁移性。

如图2所示,白盒模型上的对抗性示例的注意力热图与目标黑盒模型上的注意力热图不同,导致对抗性可迁移性有限。这一发现促使我们研究一个新问题:如何在不同模型中生成具有一致注意力热图的对抗性示例?

为了保持多个模型之间注意力热图的一致性,一种直接的方法是利用梯度来优化对抗性扰动。从不同模型获得的输入图像,又名集成攻击(Liu et al. 2017)。通过合并来自不同模型的梯度,每个模型都与同一输入图像的自己的注意力热图相关联,集成攻击有助于消除注意力热图之间的差异,从而提高可转移性。然而,在实践中,访问多个模型通常具有挑战性且成本高昂,因此使用单个代理模型更加可行。在这项工作中,我们探索如何使用输入变换在单个模型上获得具有不同注意力 hetmap 的梯度。通过这种变换,我们可以优化扰动以消除各种变换图像的注意力热图之间的差异,从而增强注意力热图的一致性和对抗性可迁移性。

BSR

对于单一源模型,我们在计算梯度时必须对输入图像进行变换以获得不同的注意力热图。因此,我们应该解决以下问题:如何转换图像以破坏单源模型上的注意力热图?注意力热图突出了有助于深度模型准确预测的重要特征。对于人类感知来说,我们能够根据部分视觉线索识别物体,即使它们被其他物体部分遮挡。例如,我们可以通过仅观察猫身体的一部分(例如头部)来识别猫。这一观察促使我们采用图像变换来吸引主要对象的特定区域的注意力,从而改变单个模型上的注意力热图。直观上,随机遮盖部分对象可以迫使深度模型聚焦于剩余对象,从而导致各种注意力热图。然而,遮蔽对象会导致图像中的信息丢失,从而使遮蔽块的梯度变得毫无意义。因此,这会降低攻击效率和有效性。

另一方面,人类表现出非凡的能力,不仅能够识别物体的可见部分,而且当物体部分被其他元素遮挡时,还能在心理上重建被遮挡的部分。这种认知过程归因于我们对物体固有的内在关系的感知,例如理解马的腿位于其身体下方。认识到内在关系对人类感知的重要性,我们尝试破坏这些关系以影响注意力热图。特别是,我们将图像分成几个块,并对这些块进行打乱,以构建视觉上与原始图像不同的新图像。正如预期的那样,即使在恢复注意力热图以匹配原始图像时,变换后的图像上的注意力热图也会被破坏,如图 1 所示。因此,我们可以打破更多样化的注意力热图的内在关系,以提高对抗性可转移性。

为了实现这一目标,我们提出了一种新的输入变换 T (x, n, τ ),它将图像随机分割成 n × n 块,然后对这些块进行随机洗牌。为了进一步破坏内在关系,每个块都独立旋转 -τ ≤ β ≤ τ 度范围内的角度。在每个块的旋转过程中,任何超出图像边界的部分都会被删除,而产生的间隙则用零填充。

通过变换 T (x, n, τ ),与从各种模型获得的注意力热图相比,我们可以获得更多样化的注意力热图。因此,加强热图的一致性(较难)有助于在模型之间产生一致的关注(较容易)。这促使我们采用变换 T (x, n, τ ) 进行梯度计算以获得更一致的热图。请注意,变换 T (x, n, τ ) 不能保证所有变换后的图像都被正确分类(在 Inc-v3 上约为 86.8%)。为了消除内在关系损坏引入的方差,我们计算 N 个变换图像的平均梯度如下:
在这里插入图片描述

实验

  • 在单个模型的评估
    我们首先评估各种基于输入转换的攻击的攻击性能,即 DIM TIM、SIM、Admix 和我们提出的 BSR。我们提出的 BSR 显着优于现有的基于输入转换的攻击,同时保持类似的白盒攻击性能。这些出色的结果证明了 BSR 在生成可迁移的对抗性示例方面的优越性,并支持我们可以通过保持各种模型上注意力热图的一致性来显着提高可迁移性。

  • 对组合输入变换的评估
    我们的 BSR 显着提高了这些基于输入转换的攻击的可转移性。特别是,当将这些输入变换与 BSR 相结合时,对抗训练模型的攻击性能显着提高了 22.8% ∼ 52.0%。尽管 Admix-TI-DIM 在组合方法中表现出最佳性能,但我们提出的 BSR-TI-DIM 超过了 Admix-TI-DIM,平均攻击​​成功率明显领先 2.6%。值得注意的是,当BSR与SI-DI-TIM结合时,可转移性进一步提高8.1%至31.6%。这进一步支持了 BSR 的高效性,并显示了其与其他基于输入转换的攻击的良好兼容性。

  • 集成模型评估
    相比之下,BSR 在这些模型上始终优于 Admix 7.3% 至 9.4%,并且保持与 Admix 相当的白盒攻击性能。值得注意的是,BSR-SI-TI-DIM 在对抗性训练的模型上实现了 98.4% 的平均攻击成功率。从之前的实验来看,组合输入变换与集成攻击表现出了最佳的攻击性能。

  • 防御方法评估
    为了彻底评估我们提出的方法的有效性,我们评估了 BSR 针对多种防御机制的攻击性能,包括 HGD、R&P、NIPSr3、Bit-RD、JPEG、FD、RS 和 NRP。在这里,我们采用 Admix-TI-DIM、BSR-TIDIM 和 BSR-SI-TI-DIM 在集成设置下生成的对抗性示例来攻击这些防御方法。如表所示。 4、BSR-TI-DIM 的表现优于 Admix-TIDIM,平均优势为 1.0%。通过Admix中采用的规模操作(SIM),BSR-SI-TI-DIM的平均攻击成功率为94.1%,比Admix-TI-DIM平均高出5.0%。值得注意的是,即使在经过认证的防御 RS 和强大的降噪器 NRP 上,BSR-SI-TI-DIM 的攻击成功率也达到了 83.9% 和 84.2%,明显优于 Admix-TI-DIM 11.3% 和 3.8%,分别。如此出色的攻击性能进一步体现了BSR的优越性,同时也暴露了现有防御的低效。

  • 消融实验

    • 关于洗牌和轮换的有效性。将图像分割成几个块后,我们对图像块进行打乱并旋转每个块。为了探索洗牌和旋转的有效性,我们进行了两种额外的攻击,即块洗牌(BS)和块旋转(BR)。如图3所示,BS和BR可以比MI-FGSM实现更好的可转移性,支持我们的主张,即优化具有不同注意力热图的输入图像上的对抗性扰动可以消除注意力热图之间的方差,从而提高可转移性。 BSR表现出最好的可迁移性,显示出其在构建可迁移对抗样本方面的合理性和高效性。
    • 关于块数n。如图4所示,当n = 1时,BSR仅旋转原始图像,不会对注意力热图造成干扰,表现出最差的可迁移性。当n > 3时,增加n会导致方差太大,无法有效消除,从而降低可传递性。因此,对原始图像进行适当程度的破坏对于提高可转移性非常重要,我们在实验中设置 n = 2。关于变换图像的数量 N 。由于BSR在破坏内在关系时引入了方差,因此我们采用N张变换图像上的平均梯度来消除这种方差。如图4所示,当N=5时,BSR已经可以实现比MIFGSM更好的可转移性,显示出其高效率和有效性。当我们增加N时,攻击性能会进一步提高,并且当N > 20时攻击性能稳定。因此,我们在实验中设置N = 20。
    • 关于旋转角度τ的范围。我们以角度 −τ ≤ β ≤ τ 随机旋转图像块,这也会影响图像的破坏程度。如图4所示,我们从τ=6°到τ=180°进行实验。当τ小于24°时,增加τ会导致图像受到更多干扰,从而获得更好的可转移性。如果我们继续增加 τ ,旋转将引入过多的干扰,从而降低性能。因此,我们在实验中设置 τ = 24°。
  • 10
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Boosting算法是一种通过迭代更新的方式构造强分类器的一类算法。它的主要特点是使用一组弱分类器,通过联合它们的结果构建一个更强的最终分类器。Boosting算法通过训练集上的多个弱分类器来解决两个问题:如何调整训练集,以让弱分类器能够进行训练,以及如何将这些弱分类器联合起来形成强分类器。 Boosting算法中的弱分类器可以是不同类型的分类器,如AdaBoost、GradientBoosting和LogitBoost等算法。 在Boosting算法中,AdaBoost是其中一种常用的算法。它采用了特定的策略来解决Boosting需要解决的两个问题。具体来说,AdaBoost使用加权后选取的训练数据来代替随机选取的训练样本,从而将训练的焦点集中在难以区分的样本上。此外,AdaBoost还通过使用加权的投票机制来联合弱分类器,使分类效果较好的弱分类器具有较大的权重,而分类效果较差的弱分类器具有较小的权重。 总结起来,Boosting算法是一种框架算法,可以使用不同的子算法来实现。它的核心思想是通过训练一组弱分类器,并将它们联合起来构建一个更强的最终分类器。Boosting算法通过迭代更新样本权值和弱分类器权值,不断提升模型的准确率。Boosting算法在机器学习领域中具有广泛的应用和研究价值。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [机器学习 —— Boosting算法](https://blog.csdn.net/starter_____/article/details/79328749)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *3* [人工智能知识全面讲解:Boosting族算法](https://blog.csdn.net/tysonchiu/article/details/125503239)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值