EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES

Goodfellow I, Shlens J, Szegedy C, et al. Explaining and Harnessing Adversarial Examples[J]. arXiv: Machine Learning, 2014.

@article{goodfellow2014explaining,
title={Explaining and Harnessing Adversarial Examples},
author={Goodfellow, Ian and Shlens, Jonathon and Szegedy, Christian},
journal={arXiv: Machine Learning},
year={2014}}

Adversarial examples 中FGSM(fast gradient sign method)方法的来源,
x ~ = x + ϵ   s i g n ( ∇ x J ( θ , x , y ) ) . \tilde{x}=x+ \epsilon \: \mathrm{sign} (\nabla_x J(\theta, x, y)). x~=x+ϵsign(xJ(θ,x,y)).

主要内容

在图像中, 像素点的进度是1/255, 所以如果我们在图像上的摄动小于此精度, 那么图像实际上是不会产生任何变化的. 作者首先说明, 即便是线性模型, 在输入上的微小摄动也能够引起结果(当维数够大)的很大变化.

从线性谈起

x ~ = x + η \tilde{x} = x+\eta x~=x+η, 线性摄动如下
w T x ~ = w T x + w T η , w^T\tilde{x} = w^Tx+w^T\eta, wTx~=wTx+wTη,

此时结果的摄动为 w T η w^T\eta wTη, 假设 w w w的平均值为 m m m. 注意到, 在 ∥ η ∥ ∞ < ϵ \|\eta\|_{\infty}<\epsilon η<ϵ的条件下, η = ϵ   s i g n ( w ) \eta=\epsilon \: \mathrm{sign}(w) η=ϵsign(w)时摄动最大(这也是FGSM的启发点), 此时摄动为 ϵ m n \epsilon mn ϵmn, 注意到, 假设 ϵ , m \epsilon, m ϵ,m是固定的, 那么 n n n足够大的时候摄动就会特别大.

非线性

由线性启发至非线性(因为很多deep networks 的表现是线性的), 便是
x ~ = x + ϵ   s i g n ( ∇ x J ( θ , x , y ) ) . \tilde{x}=x+ \epsilon \: \mathrm{sign} (\nabla_x J(\theta, x, y)). x~=x+ϵsign(xJ(θ,x,y)).
实验证明, 即便是GoogLeNet这样的网络也会被生成的adversarial examples所欺骗.

其实看这篇文章的主要一个问题就是为什么 η ≠ ϵ   ∇ x J ( θ , x , y ) \eta \not = \epsilon \: \nabla_x J(\theta, x, y) η=ϵxJ(θ,x,y), 逼近这个方向才是令损失函数增长最快的方向.

文中有这么一段话, 不是很明白:

Because the derivative of the sign function is zero or undefined everywhere, gradient descent on the adversarial objective function based on the fast gradient sign method does not allow the model to anticipate how the adversary will react to changes in the parameters. If we instead adversarial examples based on small rotations or addition of the scaled gradient, then the perturbation process isitselfdifferentiableandthelearningcantakethereactionoftheadversaryintoaccount. However, we did not find nearly as powerful of a regularizing result from this process, perhaps because these kinds of adversarial examples are not as difficult to solve.

顺便记一下论文的总结:

  • 正是因为deep networks表现过于线性, 才会导致advesarial examples.
  • 不同的网络的adversarial examples是相通的, 这可能是因为二者逼近的函数是近似的
  • 摄动的方向而非个别特定点起了更重要的作用
  • 对抗训练是一种正则化过程
  • 越容易优化的模型又容易被欺骗
  • 线性模型缺乏对抗欺骗的能力
  • 拟合输入数据分布的模型缺乏对抗欺骗的能力
  • Ensembles are not resistant to adversarial examples. (多个模型组合(取平均判断类别)依然缺乏对抗欺骗的能力).
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值