作者研究了保护用于图像分类的深度神经网络方法免受物理可实现攻击的问题。首先,证明了可学习的鲁棒模型的两种最具可扩展性和最有效的方法(PGD 攻击的对抗训练和随机平滑),对三种最引人注目的物理攻击的效果非常有限。
论文信息
原文链接:https://arxiv.org/abs/1909.09552
原文开源代码:https://github.com/tongwu2020/phattacks
解决的问题
接下来,作者提出了一种新的抽象对抗模型,矩形遮挡攻击(rectangular occlusion attacks),其中对手在图像中放置一个小的对抗制作的矩形,并开发两种方法来有效地计算得到的对抗样本。最后,作者证明了使用新攻击的对抗训练产生的图像分类模型对研究的物理可实现的攻击表现出很高的鲁棒性,为此类攻击提供了第一个有效的通用防御。
由于作者在人脸识别、交通牌识别和分类任务上发现,传统的对抗训练和随机平滑对patch攻击并没有很好的防御作用,即用于使深度学习对攻击具有鲁棒性的传统模型在面对物理上可实现的攻击时表现很差。例如下图是面对对抗眼镜时的acc,随着迭代的提升,acc迅速下降:
换句话说,证据有力地表明,如果人们关注在实践中可能面临的主要物理威胁,攻击者可以对输入图像进行