对抗样本文章笔记(二)

论文笔记–Deep Neural Networks are Easily Fooled:High Confidence Predictions for Unrecognizable Images

目标:

生成人类完全无法识别,但DNN可以给出明确分类的图像。

图片生成算法:

进化算法(EA):

选择一张图片,进行随机变异,若对某类的置信度高于拥有当前该类最高置信度的图片,就将新生成的图片替代当前最优图片。通过不断地对图片添加干扰、选择分类效果更好的图片来得到优势图片,过程类似于生物进化时的突变、自然选择。
这里写图片描述

两种编码方式
  • 直接编码:生成一个与输入图片形状相同的随机矩阵,每个位置取值(0,255),每次选择其中10%的数字通过多项式变异算子进行突变操作。这里的10%是可变参数。
  • 间接编码:通过CPPN生成规则的图形。CPPN类似于人工神经网络,输入时一个像素点的位置(x,y),输出是该像素点的灰度值或HSV色值。通过更新CPPN网络的拓扑结构、权重、神经元的激活函数等方式进行进化。

实验

  • 在MNIST数据集上的实验:
    两种编码方式生成的干扰图片都会以极高的置信度被识别为某一特定分类的图片。此外,间接编码生成的规则图形中,分类为数字“1”的图片通常有竖线,数字“2”通常在图片下方有粗的水平线,这些现象说明EA利用特定的有区分度的特征对图片进行分类。
    这里写图片描述
  • 在ImageNet数据集上的实验:
    直接编码生成的图片干扰效果不好,而间接编码生成的图片仍然很容易对网络造成干扰。
    观察一:CPPN产生的图片,每类都对应着某一相似的特征,但都不是这个分类的全部特征。
    观察二:相关的类表现出相似的特征(如图片中不同类型的狗和蜥蜴在一轮进化中分别对应相似的图片)
    观察三:每次最终的结果中,同一个类会抽象出不同的特征(如图片中每一个不同轮次进化最终的图片表现不同)
    这里写图片描述
    观察四:从生成图像中移除一些重复元素,分类的置信度会下降,说明DNN倾向于学习数据的低级和中级特征,而不是全局特征、组合特征。
  • 验证不同网络对同一个分类是否是通过同样的特征进行识别:
    把DNNa中生成的干扰图片输入到DNNb中,看b网络是否会被这些干扰图片所愚弄。
    实验采取了控制变量的方法。part1:控制网络a、b有相同的结构和训练数据,初始化w不同;part2:控制网络a、b有相同的训练数据集,而网络结构不同。最终结果显示,在a中生成的干扰图片在b中也可以起到同样的干扰效果。
  • 将生成的图片用于训练神经网络
    并没有提高MNIST数据集上LeNet网络避免被愚弄的能力,但在ImageNet上起到了比较好的效果,网络可以知道哪些图片是假的了。 这说明将人工生成的CNNP图像与真实的自然界图像分开比与数字区分开要容易。
  • 通过梯度上升方法生成干扰图片

讨论

1、有人认为对于所有的分类,我们可以生成相似的干扰图片,是这些图片被误分类。本文的实验表明这种想法并不可行,事实上,进化产生的图片具有很高的多样性。
2、干扰图片产生的原因或许与判别模型和生成模型的特性有关。判别模型一般是对于分类问题,网络通过给出决策边界来判断输入属于哪个分类,考虑的是P(y|x;θ)。当生成的图片远离决策边界时就会被分为某一个特定的类,判别模型并不关心图片x本身是否合理。而生成模型考虑P(x,y),它会学习每一类数据的特征模型和类别概率,因此不容易被干扰。
3、多次运行时对同一分类会产生不同的图像,说明图片识别时依赖多个特征,而每次进化可能会归结到某一特征。
4、不只是图片,其他的数据类型也存在类似的攻击。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值