[1] Goodfellow I J, Shlens J, Szegedy C. Explaining and harnessing adversarial examples[J]. arXiv preprint arXiv:1412.6572, 2014.
https://arxiv.org/abs/1412.6572
Abstract : 应用细微但是有意的最坏的扰动到数据集中的样本上形成输入,这样扰动的输入导致模型输出一个错误的答案并且伴随着很高的可信度。先前工作聚焦于非线性和过拟合尝试解释这个现象,我们反而认为NN对 对抗扰动表现脆弱性的主要原因在于其线性特征。解释:他们通过架构和训练集的泛化。此外,这种观点 产生了一个简单并且快速生成对抗样本的方法。使用这个方法去提供样本用于对抗训练,我们减少了maxout网络在MINST数据及上的错误。
1 Introduction :
Szegedy 做了一个有趣的发现:一些机器学习模型,包括最先进的NN,对Adversarial examples(AE)表现脆弱。这些ML模型分错仅跟数据分布中抽取的正确分类样本有细微差异的样本。在很多场景下,在不同架构和不同训练数据子集下的训练的各种模型错分类同样的AE,这表示对抗样本暴露了我们训练算法的基本盲点。
这些AE的原因是一个谜,推测的解释提出这是由于DNN极度非线性,可能与不充分模型平均和纯监督学习问题的不充分正则化相结合。我们表示这些推测的假设是不必要的,在高维空间的线性行为足以造成AE。这个现象让我们去设计了一个快速的生成对抗样本的方法从而让对抗训练变得实用。我们表示对抗训练能提供一个比仅实用dropout更多的正则好处。通常的正则化策略例如dropout,与训练和模型平均并不会显著减少模型对AE的脆弱性,但改用非线性模型家族例如RBF网络能够才做到这样。
我们的解释提出了一个 设计由于线性易于训练的模型和使用非线性效应去抵抗对抗扰动去设计模型 之间的基本张力,从长远来看,设计更加有力的优化方法从而能够成功训练更多非线性模型 可能避免这种折中。
2 Related Work: