论文阅读笔记2——Evading Defenses to Transferable Adversarial Examples by Translation-Invariant Attacks

最新推荐文章于 2024-07-29 10:00:55 发布

一只Cactus

最新推荐文章于 2024-07-29 10:00:55 发布

阅读量3.2k

点赞数 1

分类专栏：论文阅读笔记文章标签：对抗攻击 CVPR2019

本文链接：https://blog.csdn.net/sinat_17581847/article/details/89403668

版权

本文研究了如何绕过防御机制，实现对抗样本在不同模型间的高效转移。针对白盒攻击和黑盒攻击，提出了翻译不变攻击（Translation-Invariant Attacks）方法，通过计算平移图像的平均梯度来降低对抗样本对特定模型识别区域的依赖，从而增强对抗样本的转移性。这种方法结合了FGSM和BIM等攻击策略，同时引入了动量项和随机输入变换以进一步提升转移性。论文探讨了CNN的平移不变性，并提供了三种核矩阵选择策略，简化了计算过程。

摘要由CSDN通过智能技术生成

论文标题：Evading Defenses to Transferable Adversarial Examples by Translation-Invariant Attacks

论文链接：https://arxiv.org/abs/1904.02884

关于对抗攻击：

白盒攻击（white-box attacks）：在已经获取机器学习模型内部的所有信息和参数上进行攻击。已知给定模型的梯度信息生成对抗样本，如fast gradient sign method（FGSM），basic iterative method，Carlini & Wagner’s method。

黑盒攻击（black-box attacks）：在神经网络结构为黑箱时，仅通过模型的输入和输出，生成对抗样本。

跨模型可转移性（cross-model transferability）：对一个模型制作的对抗样本在很大概率下会欺骗其他模型。可转移性使得黑盒攻击（black-box attacks）能够应用于实际，并引发严重的安全问题（自动驾驶、医疗）。

生成的对抗样本与判别区域或白盒模型给定的输入点的梯度高度相关，而其他模型依赖于不同的区域做预测，这使得转移到其他防御模型很困难。

普通模型有相似的attention maps，防御模型会产生不同的attention maps。防御模型的辨别目标类别的识别区域（discriminative regions）与其他正常训练的模型不同，见图1。当用FGSM、BIM等已有模型生成对抗样本，只是对于单一的样本进行优化，因此会与识别区域或白盒模型在被输入数据的攻击点的梯度高度相关。对于另一个有着不同识别区域的黑盒模型，该对抗样本很难保持对抗性。