结论:由于本篇论文是在阅读完PS-GAN的基础上了来看的,所以并未感到有什么优越的策略。唯一新颖的点是在测试方法上使用了蒸馏网络来模拟黑盒攻击。
摘要
深度神经网络(DNNs)已经被发现容易受到对抗性例子的影响,这是由于输入中添加了小幅度的扰动。这种对抗性的例子会误导dnn产生对抗性选择的结果。不同的攻击策略已被提出以产生对抗实例,但如何产生高感知质量和更有效的对抗实例还需要更多的研究。在本文中,我们提出了利用生成对抗网络(GANs)生成对抗例子的AdvGAN算法,它可以学习和近似原始实例的分布。对于AdvGAN来说,一旦生成器被训练,它就可以在任何情况下有效地产生扰动,从而潜在地加速对抗训练作为防御。我们在半白盒和黑盒攻击设置中都应用了AdvGAN。与传统的白盒攻击不同,在半白盒攻击中,不需要在训练生成器之后访问原始目标模型。在黑盒攻击中,我们动态地训练一个经过提炼的模型作为黑盒模型,并相应地优化生成器。与其他攻击相比,AdvGAN在不同目标模型上生成的对抗实例在先进防御技术下具有较高的攻击成功率。在公开的MNIST黑箱攻击挑战中,我们的攻击以92.76%的准确率位居第一。
阅读理解
这篇文章是19年IJCAI中,在PS-GAN中被引用为network-based technique实现攻击,最开始还没有看明白为什么说是基于网络技术的,读完之后这种为网络技术就是基于GAN。
这篇文章虽然说是基于GAN(由于目前还没了解过GAN内部到底是如何生成图像的,这是下面工作中需要去补充的部分),但整体来看还是基于loss优化(GAN损失:区分生成图像和原图像、ADV损失:保证对抗样本分类置信度、对抗样本铰链损失:参考CW方法中的L2 norm控制干扰程度),整张图像的生成对抗样本进行白盒攻击(区分于PS-GAN中的patch)。
对于黑盒攻击,在黑盒模型选择上采用distilltion模拟黑盒,当获得distilltion后,执行与前面白盒攻击相同的策略。本文为了更进一步清晰黑盒和distilltion对于对抗样本的执行距离,选择采用动态蒸馏的方式,将蒸馏过程与生成对抗样本过程结合。
在实验部分又针对有防御的模型验证本文方法的攻击有效性,所谓的防御模型就是通过对抗训练的模型,实验效果也是较FGSM,CW方法要好。