AI-GAN: ATTACK-INSPIRED GENERATION OF ADVERSARIAL EXAMPLES 论文精度

最新推荐文章于 2024-05-25 11:12:27 发布

快乐的鸡农

最新推荐文章于 2024-05-25 11:12:27 发布

阅读量1k

点赞数 27

文章标签：人工智能生成对抗网络神经网络

本文链接：https://blog.csdn.net/v1716836592/article/details/136274720

版权

1. 摘要和介绍部分

1.1 前面方法的缺陷

先前的对抗样本生成方法如FGSM,JSMA,PGD,C&W attack生成能力是有限的，即他们一次只能执行一个特定的目标攻击。不同的目标需要重新培训。意思是不同的对抗样本生成需要不断训练，

2)它们很难扩展到现实世界的数据集。大多数基于GAN的先前工作仅在MNIST和CIFAR-10上评估了他们的方法，这对于复杂的现实任务是不可行的

1.2 本文贡献

(1)我们提出了一种新的Attack-Inspired GAN框架，称为AI-GAN，其中生成器，鉴别器和攻击者共同训练

(2)AI-GAN在不同的数据集上显示出强大的攻击能力（如更大的数据集CIFAR-100），在各种设置下都优于现有的方法

2. 相关工作部分

2.1 对抗样本的发现

Christian Szegedy, Wojciech Zaremba, Ilya Sutskever, Joan Bruna, Dumitru Erhan, Ian J. Goodfellow, and Rob Fergus, “Intriguing properties of neural networks,” in 2nd International Conference on Learning Representations, 2014、

2.2 基于优化的攻击方法

Fast Gradient Sign Method (FGSM)：[2] Ian J. Goodfellow, Jonathon Shlens, and Christian Szegedy, “Explaining and harnessing adversarial examples,” in 3rd International Conference on Learning Representations, ICLR 2015, Conference Track Proceedings, 2015

Jacobian-based Saliency Map Attack (JSMA)：[3] Nicolas Papernot, Patrick McDaniel, Somesh Jha, Matt Fredrikson, Z Berkay Celik, and Ananthram Swami, “The Limitations of Deep Learning in Adversarial Settings,” in EuroS&P. IEEE, 2016, pp. 372–387

Projected Gradient Descent (PGD)：[5] Aleksander Madry, Aleksandar Makelov, Ludwig Schmidt, Dimitris Tsipras, and Adrian Vladu, “Towards deep learning models resistant to adversarial attacks,” in 6th International Conference on Learning Representations, 2018

以上攻击方法的缺点:这些方法通常耗时且计算密集，需要在推理期间访问目标模型以进行强攻击

2.3 基于GAN生成对抗样本的方法

advGAN [7] Chaowei Xiao, Bo Li, Jun-Yan Zhu, Warren He, Mingyan Liu, and Dawn Song, “Generating adversarial examples with adversarial networks,” in Proceedings of the Twenty-Seventh International Joint Conference on Artificial Intelligence, IJCAI 2018, July 13-19, 2018, Stockholm, Sweden, 2018, pp. 3905–3911

注意：所有这些方法仅在简单的数据集上进行评估，例如MNIST和CIFAR-10

3. 方法部分

3.1 模型整体流程

在advGAN的基础上创新的创新点:不仅仅让discriminator判别生成图像和原始图像的真与假，而且还对discriminator进行对抗训练，包括正确预测generator生成的对抗样本的类别，正确预测attack分支(PGD)攻击生成对抗样本的类别，从而提高判别器的鲁棒性，论文说这样做的目标是助于稳定和加速整个训练。

隐蔽性损失

对抗训练损失

3.2 判别器训练损失

3.3 生成器损失

生成器：为了提高生成器的可扩展性，我们提出以自监督的方式预训练编码器。预训练的编码器可以有效提取特征，并减少从零开始训练的难度。预训练编码器的存在使我们的方法在某种程度上类似于特征空间攻击，并在某种程度上增加了对抗样本的可转移性。由于我们训练了一个带有健壮辅助分类器的鉴别器，我们的生成器的攻击能力得到了进一步增强。生成器的损失函数由三部分组成：Ltarget(adv)用于攻击目标模型，LD(adv)用于攻击鉴别器，以及与鉴别器相同的LS。Ltarget(adv)和LD(adv)的表达式如下：

4.实验部分

作者进行了一系列的实验来评估AI-GAN的性能。实验部分主要分为三个部分：白盒攻击评估、在防御下的攻击评估，以及AI-GAN在CIFAR-100数据集上的可扩展性评估

4.1 白盒攻击评估 (White-box Attack Evaluation)

在白盒设置下，攻击者对目标模型有完全的了解。这一部分评估了AI-GAN在MNIST和CIFAR-10数据集上的攻击能力。作者使用了不同的目标模型，并报告了AI-GAN在不同目标类别上的攻击成功率。实验结果显示，AI-GAN在MNIST和CIFAR-10上都取得了很高的攻击成功率，特别是在MNIST数据集上，对于任何目标类别，成功率都超过了96%。在CIFAR-10上，对于ResNet32和WRN34模型，平均攻击成功率分别为95.39%和95.84%。

对比各种对抗攻击方法生成对抗样本的速度

4.2 在防御下的攻击评估 (Attack Evaluation Under Defenses)

在这一部分，作者评估了AI-GAN在目标模型采取防御措施时的攻击效果。为了提高模型的鲁棒性，作者选择了三种流行的对抗性训练方法来增强目标模型的防御能力：使用FGSM的对抗性训练、集成对抗性训练（Ensemble Adversarial Training），以及使用PGD的对抗性训练。然后，作者将AI-GAN与FGSM、C&W攻击、PGD攻击和AdvGAN等方法进行了比较。结果显示，AI-GAN在大多数情况下都优于其他方法，具有最高的攻击成功率。

4.3 AI-GAN的可扩展性 (Scalability of AI-GAN)

为了测试AI-GAN是否能够泛化到更复杂的数据集，作者在CIFAR-100数据集上进行了实验。CIFAR-100比CIFAR-10和MNIST更复杂。作者展示了AI-GAN在CIFAR-100上的攻击成功率，并使用混淆矩阵来可视化结果。在混淆矩阵中，行代表目标类别，列代表预测结果。对角线上的值表示每个目标类别的攻击成功率。实验结果表明，AI-GAN在CIFAR-100上的所有类别上都取得了很高的攻击成功率，平均成功率为87.76%。

这些实验结果证明了AI-GAN在不同设置下的有效性和优越性，无论是在白盒设置下还是在目标模型采取防御措施的情况下。此外，AI-GAN在更复杂的数据集上的成功应用也展示了其良好的可扩展性