[论文笔记]Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images

作者:Anh Nguyen, Jason Yosinski, Jeff Clune
链接:https://arxiv.org/pdf/1412.1897.pdf
摘要:
这里写图片描述
本文的工作基于Christian Szegedy的Intriguing properties of neural networks一文,前文是利用箱约束下的L-BFGS算法来改造正确样本,而本文能够利用进化算法(梯度上升)的思想随机生成对于人类不可识别,但对DNN能够以极大的置信度(99.99%)进行错误分类的图片。

测试模型

基于Caffe的AlexNet、MNIST-LeNet

图片生成算法

进化算法的工作过程是:图片经过fitness函数(这里是上面的测试模型)的选择,筛选出高评分的图片,然后叠加随机扰动,重复这一过程,直到产生样本的欺骗能力足够强。
上述算法实针对小标签集的,本文改进算法,提出了Multi-dimensional Archive of Phenotypic Elites算法(MAP Elites,这个不知道怎么翻,可以理解为高维空间中的梯度上升算法?不过按照流程来看,这个上升也不是基于梯度的),原理是在上段EA的基础上维护许多(甚至所有)目标类的高分样本,直到产生样本的欺骗能力足够强。基于这一思路,作者分别在MNIST和ImageNet上做了两种实验:direct encoding和indirect encoding

直接编码生成图片

像素初始化为均匀分布的随机噪声,每次迭代随机选择像素,独立update;每千次迭代进行折半。如图是MNIST上200次迭代后成功生成的99%欺骗样本集。
这里写图片描述
然而ImageNet2012上,20k迭代后,仅有45/1000个类能够实现99%置信的欺骗集,大部分集中在60%。

间接编码生成图片

由compositional pattern-producing network(CPPN,这是十年前的老东西了)产生具有重复、对称模式,但没有具体语义的图片依然可以以99.99%的置信度欺骗DNN。这种方法在MNIST和ImageNet上都能实现很好的欺骗效果,下图是ImageNet2012上的99%置信对抗样本。
这里写图片描述
代码在http://www.evolvingai.org/fooling

基于生成图片的训练

利用对抗样本训练网络:利用原始训练集训练 DNN1 D N N 1 ;针对 DNN1 D N N 1 ,利用CPPN生成n个class的对抗样本;将生成的对抗样本归为一个新的class,添加到训练集中去,用着n+1个类重新训练$DNN_2;反复进行以上过程,就能得到一个足够鲁棒的DNN分类模型。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值