Towards Deep Learning Models Resistant to Adversarial Attacks
从对抗鲁棒性的角度出发
本文从鲁棒优化的角度研究了神经网络的对抗鲁棒性。
我们使用自然鞍点(min-max)公式,使我们能够精确地确定我们希望实现的安全保证,即我们希望抵御的广泛类型的攻击
这个公式也使我们能够将攻击和防御放在一个共同的理论框架中,自然地包含了大多数以前关于对抗性例子的工作。
尤其是,对抗性训练直接对应于优化这个鞍点问题。
类似地,先前攻击神经网络的方法对应于解决潜在约束优化问题的特定算法。
基于这一观点,我们作出以下贡献。
- 我们对这个鞍点公式对应的优化进行了细致的实验研究。尽管其组成部分是非凸和非凹的,但我们发现其潜在的优化问题还是可处理的。特别是,我们提供了强有力的证据,一阶方法可以可靠地解决这个问题。我们用真实分析的思想补充这些见解,以进一步启发PGD作为一种普遍的“一阶对抗”,即利用网络局部一阶信息的最强攻击。
- 我们探讨了网络结构对对抗鲁棒性的影响,发现模型容量在这里起着重要作用。为了可靠地抵御强大的对手攻击,网络需要比仅正确分类良性示例更大的容量。这表明鞍点问题的鲁棒决策边界比简单地分离良性数据点的决策边界要复杂得多。
-
基于上述观点,我们在MNIST[19]和CIFAR10[16]上进行了训练,这些网络能够抵御各种各样的敌对攻击。我们的方法是基于优化上述鞍点公式,并使用PGD作为可靠的一阶对抗。我们最好的MNIST模型在对抗我们测试中最强的对手时达到了89%以上的准确率。特别是,我们的MNIST网络甚至可以抵抗白盒的迭代对抗攻击攻击。我们的CIFAR10模型对同一个攻击的准确率达到46%。此外,对于较弱的黑盒/迁移攻击,我们的MNIST和CIFA