对抗样例的主要主要思想就是在神经网络的输入端加入一个不以觉察的小扰动,但是在经过神经网络预测后造成误判。
这样的样本叫做 adversarial example(对抗样本)。
以下主要针对对抗样例的一些paper进行解读:
第一篇对抗样例文章:
Christian Szegedy等人在2014年发表一篇文章,Intriguing properties of neural networks
作者在这篇文章中发现了神经网络学习到的输入到输出函数不连续,而且通过在图像上进行一个微小的扰动,最后造成网络的预测错误最大化至误分类。同时,这些扰动并不是人工针对一个特定的学习网络设定的,相同的扰动可以造成不同的网络误分类,这些网络甚至可以是不同的训练集训练的。提出对抗样例是神经网络中的盲点。
文章中提出了生成对抗样例的一种方法:
f: 输入至输出的映射
l : target label
r: 最小扰动
x: input image
Minimize ||r||2 | | r | | 2 subject to:
- f (x+r)=l
- x+r∈ [0,1]m [ 0 , 1 ] m
求解方法 using a box-constrained L-BFGS ,找到一个距离x最近的样本,使得预测为l ( L-BFGS 参考)
Minimize c|r|+loss f (x+r, l ) subject to x+r ∈ [0,1]m [ 0 , 1 ] m
满足 f(x+r) = l
实验结果:对于生成的最小扰动函数D,含有的特性:
研究的网络中(MNIST ,QuocNet, AlexNet), 生成的对抗样例视觉上很难辨别,但是原始网络总是误分类
很大部分的对抗样本被不同超参数的网络误分类(如不同层数,正则化,和初始化权重)
即使很多网络是由无交集的训练集训练出来的,但是均对很大部分对抗样例误分类