与之前提出的添加微小扰动来造成DNN的误判不同,本文提出的是生成一系列人类无法识别,但是却可以被DNN以99.99%的置信度分类的图片。具体而言提出了两种基于进化算法的以及一种利用梯度上升的生成算法。
基于进化算法的主要参考以下流程:
其中第一种EA:保留每个(或单个,如果是针对一个类别来生成)类别的最优生成样本,每次随机选择样本来变异。采用直接编码的方式,首先随机生成每个像素点的值,然后在变异时每个像素值有一定的概率发生变动(通过多项式变异算子),变异后的图像通过DNN模型得到属于不同分类的概率,如果获得的属于某一分类的最高概率大于对应类的最优样本对应概率,则用此变异结果替代对应类所记录的最优样本。
第二种EA:基于CPPN来生成图片,然后通过DNN进行选择并反馈(感觉类似于生成对抗网络)。
第一种EA生成的图片都是很不规则的噪声图像,而第二种基于CPPN的生成算法得到的图片往往都有一定的规律性(这是CPPN的特点)。
另外第三种方法是在像素空间中使用反向传播的梯度上升的算法,计算某一特定类别的softmax单元对应当前输入图像的梯度,按照梯度来增加所选单位的激活度(若使用L2正则化则可以生成某些可识别特征)。