[1] Intriguing properties of neural networks
文章发现,通过在原图是加入一些不可察觉的非随机扰动,可以极大改变网络的预测结果。这些扰动是通过最大化预测误差来训练获得输入的,称这种输入为对抗样本。
对抗例子是相对鲁棒的, 即神经网络A生成的对抗样本,在神经网路B下仍然是,即使B是不同的网络结构、超参、和训练数据。因此,神经网络含有一些内在的盲点和非显示的特征,其结构与数据分布相关。
为了解释网络中激活在特征表达上的含义,有研究者用尝试一些训练图像使得这些特征的激活值达到最大的可视化检测 (visual inspection)。 研究发现区分变化的因素是跨越整个网络空间的,而不是网络某个单元。 如下图。 事实上,在对深度神经网络学到的复杂表达来说,单元级局部的可视化检测方法相对网络级全局的方法要差。
这里有个感念叫局部泛化(local generalization)。 一个可局部泛化是说输入空间中在训练样本近邻区域也有较高的识别正确率,也就是说不可察觉的非随机扰动是不会影响预测结果的,这是所谓的平滑(smoothness)假设。然而深度神经网络通过堆叠非线性单元来对输入空间进行编码,它是non-local generalization的,即对输入空间中训练样本的领域是无法获得高识别概率的,虽然这些区域不含训练样本,但