对抗攻击(1)—— 论文Intriguing properties of neural networks阅读笔记

1.论文中心思想

论文讨论了深度神经网络的两个有趣且值得深入探讨的特点:

(1)关于单个神经元的语义信息

  • 通过单元分析方法发现(various methods of unit analysis),单个的深层神经元(individual high level units)与随机线性组合的多个深层神经元(random linear combinations of high level units)并没有什么差别——这意味着深层神经网络的语义信息(某一种特征)并非单独存在于某一个神经元中,而是分布于整个空间(多个神经元共同存在某种特征信息);

(2)深层神经网络的弱点

  • 深层神经网络的输入输出映射(input-output mappings)具有显著的不连续性。当为输入添加某种难以察觉的“扰动”时(扰动方式通过最大化网络误差来发现),会使原本正常的网络出现分类错误。且这些“扰动”的特性并非网络在学习过程中产生的随机人工现象(random artifact of learning),因为同样的“扰动”会使在不同的数据集上训练出的不同的网络产生相同的分类错误——这意味着深层神经网络是存在某种弱点盲点 or bug),按照某种规律对输入图像进行“扰动”,就能够“攻击”到网络的弱点,使网络产生错误。

2.论文重要语句解读

(1)Introduction

But as the resulting computation is automatically discovered by backpropagation via supervised learning, it can be difficult to interpret and can have counter-intuitive properties.

  • 由于神经网络的模型是通过监督学习的反向传播由计算机自主学得,这使得网络难以解释且存在反直觉特性——网络模型就像是一个黑盒子,你无法准确地分析其内部的详细情况,或者说无法得知网络的某种性质是由于其内部的那一部分所引起,这使得网络存在可以攻击的“弱点 ”。

The first property is concerned with the semantic meaning of individual units… Generally, it seems that it is the entire space of activations, rather than the individual units, that contains the bulk of the semantic information.

  • 第一个特性是关于单个神经元的语义信息。作者发现,语义信息并非单独存在于某个神经元中,而是分布在整个激活空间。(更详细的内容在第三部分)

The second property is concerned with the stability of neural networks with respect to small perturbations to their inputs. However, we find that applying an imperceptible non-random perturbation to a test image, it is possible to arbitrarily change the network’s prediction。

  • 第二个特性是关于神经网络对于输入受到微小扰动时的稳定性。作者发现对测试图片进行非随机扰动(人眼很难察觉扰动前后的测试图像的变化的微小扰动)时,可能改变网络的预测结果(这种改变并非随机的或者说偶然的,原文用的介词是arbitrarily–武断地)。作者通过最大化网络预测误差的方式对输入图片进行扰动从而产生对抗样本adversarial examples

Yet, we found that adversarial examples are relatively robust, and are shared by neural networks with varied number of layers, activations or trained on different subsets of the training data. That is, if we use one neural net to generate a set of adversarial examples, we find that these examples are still statistically hard for another neural network even when it was trained with different hyperparameters or, most surprisingly, when it was trained on a different set of examples.

  • 作者发现,产生的对抗样本具有相对鲁棒性。用某个网络产生的对抗样本,对于其他网络也是同样(统计学上的)难以准确预测的(即可能存在能准确预测的例外,但根据统计规律来看,这种概率比较低),哪怕其他网络的训练是不一样的超参数甚至是在不一样的训练集上训练的。——这意味着对抗样本并不是像随机噪声那样的干扰,而是这类神经网络具有非直觉特性( nonintuitive characteristics)内在盲点( intrinsic blind spots)

(2)Framework

  • 作者用不同的网络在不同的数据集上进行了实验。
    • 在MNIST数据集上,作者用了以下网络结构。(MNIST数据集的介绍见 liuchengxu_ 的博客详解 MNIST 数据集
      • 一个由一个或多个隐藏层和softmax分类器组成的简单全连接网络——称为“FC”。
      • 在自动编码器(详见 Duckie-duckie 的博客自动编码器—Autoencoder)上训练的分类器——称为“AE”。
    • 在ImageNet数据集(数据集介绍详见 hb_ma 的微博ImageNet dataset介绍
    • 来自Youtubu的约10M图片
      • 有约10亿个学习过的参数的非监督训练网络——称为“Quocnet”。

(3)Units of: ϕ \phi ϕ(x)

These works interpret an activation of a hidden unit as a meaningful feature. They look for input images which maximize the activation value of this single feature.

This suggests that the natural basis is not better than a random basis for inspecting the properties of ϕ \phi ϕ(x). This puts into question the notion that neural networks disentangle variation factors across coordinates

  • 前人的工作试图通过单个神经元去解释某种特征(例如:某个神经元对直线很敏感,另一个神经元对圆弧很敏感)。换句话说,他们认为网络的对某种特定特征的提取是由某个特定神经元所决定的。这个结论的确能通过实验进行验证,作者的实验方式是这样的:观察某个隐藏层的某个神经元的激活值( ϕ \phi ϕ(x)),对于不同的输入图像(x),这个激活值不同。将所有使激活值达到最大(我认为这个“最大”是相对 的,因为最大值可能只存在一个,这里的“最大”可能是其大于某个阈值时就认为是“最大”)的输入图像组成一个集合( x ’ x^’ x,观察这个集合里的图像,发现它们具有相似的某种特征。用公式表示如下
    x

  • 12
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值