Paper notes: Towards Evaluating the Robustness of Neural Networks

Summary


This paper introduces a stronger adversarial method than the previous state-of-the-art methods, which are successfully defended by distillation. The proposed method aims to generate high-confidence adversarial examples to increase its transferability as well as to achieve indistinguishability from original examples by L p L_p Lp regularization.

Content

这篇论文引入了一种新的对抗攻击方法,Carlini and Wagner Attack (CW),该方法比之前提出的攻击方法都要高效且所产生的对抗样本有较小的扰动总量。在此之前,defensively distilled model 很有效地防御 4 种 stat-of-art 攻击方法,但在对抗新攻击方法时,distillation 提供了非常有限的保护 。该攻击方法可公式化为, m i n i m i z e ∥ δ ∥ p + c ⋅ f ( x + δ ) s u b j e c t   t o x + δ ∈ [ 0 , 1 ] n minimize \quad\|\boldsymbol{\delta}\|_p+c\sdot f(\boldsymbol{x+\delta}) \quad subject \space to\quad\boldsymbol{x+\delta}\in [0,1]^n minimizeδp+cf(x+δ)subject tox+δ[0,1]n
其中 L p L_p Lp norm 共使用了三种形式, L 0 , L 2 , L ∞ L_0, L_2,L_\infin L0,L2,L δ \boldsymbol{\delta} δ 是对抗扰动,论文采取 δ i = 1 2 ( t a n h ( ω i ) + 1 ) − x i \delta_i=\frac{1}{2}\big(tanh(\omega_i)+1\big)-x_i δi=21(tanh(ωi)+1)xi。目标函数 f f f 有七种可能选择,其中最佳目标函数为 f ( x ′ ) = m a x ( m a x { Z ( x ′ ) i : i ≠ t } − Z ( x ′ ) t , − k ) f(x')=max\big(max\{Z(x')_i:i\neq t\}-Z(x')_t,-k\big) f(x)=max(max{Z(x)i:i=t}Z(x)t,k)参数 k k k 可控制所生成对抗样本的期望的置信度。

接下来,论文对于应用三种不同的距离度量而产生的 CW 方法的三种形式在 MINIST 数据集上进行了对抗样本生成的测试。实验结果表明,这三种形式的新攻击方法产生的对抗样本数字与原数字样本肉眼难以分辨。并且与 JSMA, FGSM, PGD 攻击方法生成的对抗样本进行比较,结果表明论文提出的攻击方法有较小的扰动均值。

最后,论文理论分析了先前的攻击方法被 distilled network 有效防御的原因。L-BFGS, Deepfool, FGSM 和 JSMA-F 是由于 dsitillation策略——使用 s o f t m a x ( x / T ) softmax(x/T) softmax(x/T) 训练而测试时使用 s o f t m a x ( x / 1 ) softmax(x/1) softmax(x/1) —— 引起的精度问题,而导致目标函数的梯度几乎处处为 0。然后作者测试了 CW 方法,结果表明 CW 产生的对抗样本对 distilled network 的攻击成功率几乎100%,并且 L 2 , L ∞ L_2,L_\infin L2,L 下的 CW 方法拥有非常小的扰动均值。作者还通过增大 k k k 参数来提高所生成对抗样本的置信度,并通过实验发现,对抗样本的置信度越高,其可转移性越高,即在 undistilled model 生成的对抗样本成功攻击 distilled model的概率越高。

Stength

  1. 论文进行了三种不同距离度量的形式的测试,即用实验说明距离度量的选择对于扰动均值有很大的影响。
  2. 论文有比较完整的实验,既有直接应用攻击方法到防御模型的实验又有对抗样本呢转移性的实验。
  3. 论文提供了源码。

Weakness

None

Comment

这篇论文不仅介绍一种新的强大的攻击方法而且介绍了很多背景知识,比如介绍了目标函数的七种选择。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值