本文关于《Detecting Adversarial Examples through Image Transformation》和《Towards Evaluating the Robustness of Neural Networks》,因为文献阅读顺序,我先从《Detecting Adversarial Examples through Image Transformation》来展开,并补充关于后者的阅读总结。
1. 概述
由于深度神经网络对于对抗性样本攻击不具有一定的稳定性,近年来不断有人提出对抗性样本构造方法以及防御对抗性样本攻击的方法。
/* 这里补充说明一下关于对DNN进行对抗性样本攻击的大致步骤,即:人为对待测待测样本(拿图片举例)加入某些干扰(perturbation),这些干扰往往用人的肉眼难以识别,但却会对DNN最后的估计结果产生较大变化。拿常见的白盒攻击流程举例,通常会分为四步:
- 添加一张想增加干扰的图像放入神经网络
- 根据预测结果,预估其距离攻击者想要让神经网络误识别的目标有多远
- 使用反向传播算法调整图像本身的某些元素,使经过神经网络所得到的结果更加接近攻击者想要的结果
- 不断重复1-3步骤最后攻击成功 */
而在众多对抗性样本攻击中,CW attack 对现有的防御方法具有近乎完全的免疫性。基于这个背景,本文也主要针对CW attack提出了一种防御方法。
在日常生活中,当人们无法识别眼前物体时,往往会改变观察角度,或者把物体拿远或拿近来观察。文章作者正是基于“正常图片经过图像变换(偏移、旋转)之后普遍不会影响识别,而经过人为改变的对抗性样本经过图像变换后则会影响识别”这一设想&#x