Towards Deep Learning Models Resistant to Adversarial Attacks (PGD)

本文从优化角度探讨了神经网络的对抗鲁棒性,提出了一种使用PGD的一阶方法来解决鞍点问题,从而增强模型抵御各种攻击的能力。在MNIST和CIFAR10数据集上,经过训练的网络在对抗攻击下保持了高准确率,证明了这种方法的有效性。
摘要由CSDN通过智能技术生成

Towards Deep Learning Models Resistant to Adversarial Attacks

从对抗鲁棒性的角度出发

本文从鲁棒优化的角度研究了神经网络的对抗鲁棒性。

我们使用自然鞍点(min-max)公式,使我们能够精确地确定我们希望实现的安全保证,即我们希望抵御的广泛类型的攻击

这个公式也使我们能够将攻击和防御放在一个共同的理论框架中,自然地包含了大多数以前关于对抗性例子的工作。

尤其是,对抗性训练直接对应于优化这个鞍点问题。

类似地,先前攻击神经网络的方法对应于解决潜在约束优化问题的特定算法。

基于这一观点,我们作出以下贡献。

  1. 我们对这个鞍点公式对应的优化进行了细致的实验研究。尽管其组成部分是非凸和非凹的,但我们发现其潜在的优化问题还是可处理的。特别是,我们提供了强有力的证据,一阶方法可以可靠地解决这个问题。我们用真实分析的思想补充这些见解,以进一步启发PGD作为一种普遍的“一阶对抗”,即利用网络局部一阶信息的最强攻击。
  2. 我们探讨了网络结构对对抗鲁棒性的影响,发现模型容量在这里起着重要作用。为了可靠地抵御强大的对手攻击,网络需要比仅正确分类良性示例更大的容量。这表明鞍点问题的鲁棒决策边界比简单地分离良性数据点的决策边界要复杂得多。
  3. 基于上述观点,我们在MNIST[19]和CIFAR10[16]上进行了训练,这些网络能够抵御各种各样的敌对攻击。我们的方法是基于优化上述鞍点公式,并使用PGD作为可靠的一阶对抗。我们最好的MNIST模型在对抗我们测试中最强的对手时达到了89%以上的准确率。特别是,我们的MNIST网络甚至可以抵抗白盒的迭代对抗攻击攻击。我们的CIFAR10模型对同一个攻击的准确率达到46%。此外,对于较弱的黑盒/迁移攻击,我们的MNIST和CIFA

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值