[论文笔记]Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images

最新推荐文章于 2022-01-11 01:07:24 发布

玄云飘风

最新推荐文章于 2022-01-11 01:07:24 发布

阅读量1.9k

点赞数

分类专栏：论文阅读

本文链接：https://blog.csdn.net/tfcy694/article/details/80830475

版权

论文阅读专栏收录该内容

23 篇文章 1 订阅

订阅专栏

作者：Anh Nguyen, Jason Yosinski, Jeff Clune
链接：https://arxiv.org/pdf/1412.1897.pdf
摘要：
这里写图片描述
本文的工作基于Christian Szegedy的Intriguing properties of neural networks一文，前文是利用箱约束下的L-BFGS算法来改造正确样本，而本文能够利用进化算法（梯度上升）的思想随机生成对于人类不可识别，但对DNN能够以极大的置信度（99.99%）进行错误分类的图片。

测试模型

基于Caffe的AlexNet、MNIST-LeNet

图片生成算法

进化算法的工作过程是：图片经过fitness函数（这里是上面的测试模型）的选择，筛选出高评分的图片，然后叠加随机扰动，重复这一过程，直到产生样本的欺骗能力足够强。
上述算法实针对小标签集的，本文改进算法，提出了Multi-dimensional Archive of Phenotypic Elites算法（MAP Elites，这个不知道怎么翻，可以理解为高维空间中的梯度上升算法？不过按照流程来看，这个上升也不是基于梯度的），原理是在上段EA的基础上维护许多（甚至所有）目标类的高分样本，直到产生样本的欺骗能力足够强。基于这一思路，作者分别在MNIST和ImageNet上做了两种实验：direct encoding和indirect encoding

直接编码生成图片

像素初始化为均匀分布的随机噪声，每次迭代随机选择像素，独立update；每千次迭代进行折半。如图是MNIST上200次迭代后成功生成的99%欺骗样本集。
这里写图片描述
然而ImageNet2012上，20k迭代后，仅有45/1000个类能够实现99%置信的欺骗集，大部分集中在60%。

间接编码生成图片

由compositional pattern-producing network（CPPN，这是十年前的老东西了）产生具有重复、对称模式，但没有具体语义的图片依然可以以99.99%的置信度欺骗DNN。这种方法在MNIST和ImageNet上都能实现很好的欺骗效果，下图是ImageNet2012上的99%置信对抗样本。
这里写图片描述
代码在http://www.evolvingai.org/fooling