核心观点:
神经网络对于对抗样本的攻击如此脆弱的原因,是因为网络的线性本质。
文章还提出了最早的 FGSM (Fast Gradient Sigh Method)对抗样本生成方法。
通过在训练样本中加入一定的对抗样本(随机生成),可以对模型起到一定的正则化作用。
insight
利用非线性可以抵抗对抗样本,但是非线性的模型又没有线性模型好训练优化,所以未来的思路可能是:设计一套优化方法,可以用来很好地训练非线性模型。
不太懂的地方
5 ADVERSARIAL TRAINING OF LINEAR MODELS VERSUS WEIGHT DECAY 这一小节里面论文谈到,加入对抗样本以后的训练效果,初看起来跟 L1 正则化有点像,但是实际上有很大不同。最大的不同点在于,L1 正则化(也就是 weight decay)是在训练过程中,把 L1 penalty 加在 training cost 上,而不是像加入了对抗样本训练中,是把 L1 penalty 从中减去。关于两者后续比较的讨论还是没怎么看懂。但是大致意思是将,L1 weight decay 的正则化效果没有对抗样本的正则化效果好。
other
通过在训练样本中加入由某种算法生成的对抗样本训练,确实可以降低该模型在面对定向对抗样本的攻击成功率。但是遗憾地是,在分类错误的对抗样本上,模型给出的置信度却非常高。在错误分类的对抗本上给出的置信度平均高达 81.4%。
Summary & Discussion
看不懂原文的可以直接看结论:
对抗样本的存在是因为模型过于线性,而不是因为模型过于非线性。
对抗样本在不同模型之间的泛化能力可以解释为对抗样本扰动与模型权重变量步调高度一致的结果,而不同的模型在执行相同的任务的时候,学习的都是相似的函数。
扰动的方向比扰动的具体值重要。因为特征空间并不像实数里面到处嵌入了无理数一样,到处都存在对抗样本。
正是因为扰动在正确的方向才起作用,所以可以在不同的原始干净样本中进行泛化。
介绍了一种生成对抗样本的方法。
对抗样本可以起到正则化的作用,甚至比 dropout 的效果还好。
L1 weight decay 加噪音起到的正则化效果没有对抗样本的正则化效果好。
越容易优化的模型,越容易遭受扰动。
线性模型缺乏抵抗对抗样本扰动的 capacity。只有含有隐含层的结构才能被用于训练来抵抗扰动(不确定意思get的对不对)。
RBF 网络可以抵抗对抗样本。
Models trained to model the input distribution are not resistant to adversarial examples.(不好翻译)
集成多个模型也并不能抵抗对抗样本。