Paper笔记：《Towards Evaluating the Robustness of Neural Networks》（CW攻击）

最新推荐文章于 2024-04-09 16:45:25 发布

Lovewxy_不再回忆

最新推荐文章于 2024-04-09 16:45:25 发布

阅读量784

点赞数 1

分类专栏：对抗攻防

本文链接：https://blog.csdn.net/weixin_37627840/article/details/114270525

版权

本文介绍了《Towards Evaluating the Robustness of Neural Networks》论文中提出的CW攻击方法，该方法成功突破了当时被认为坚不可摧的防御性蒸馏，攻击成功率接近100%。文章详细探讨了CW攻击的动机、贡献、攻击策略，包括基于L0、L2和L∞距离的优化目标，并分析了如何有效地处理像素值约束。实验表明，CW攻击在多个数据集上表现出高成功率和低扰动，对防御性蒸馏构成严重威胁，同时提出迁移性攻击的概念，进一步验证了其鲁棒性。

摘要由CSDN通过智能技术生成

论文： https://arxiv.org/pdf/1608.04644.pdf?source=post_page
代码：https://github.com/Harry24k/CW-pytorch

Motivation

又是一篇对抗攻击领域的基石之作，论文的思路主要针对当时最强的防御方法——防御性蒸馏。在当时，几乎所有的攻击方法都无法攻破防御性蒸馏，而本文的方法在面对防御性蒸馏时，取得了几乎100%的攻击成功率，这也再一次推动了对抗攻防算法的演进。

Contribution

作者提出了一种新的攻击方法（业界常称之为CW），可以以几乎100%的成功率攻破适应性防御，并成为检验防御模型效果的一个新的baseline。作者将本文的贡献总结为以下四点：
（1）基于 $L_0$ 、 $L_2$ 和 $L_\infty$ 距离设计了三种攻击方法。
（2）利用这三种攻击方法攻破防御性蒸馏。
（3）提出利用高置信度的攻击样本来进行迁移攻击，作为测试模型鲁棒性的手段，同时这种方法也成功攻破了防御性蒸馏。
（4）系统性地评估了不同损失函数对攻击效果的影响，发现损失函数的选择影响巨大。

Method

目标函数

首先来看对抗攻击优化函数的最基本形式：
$minimize\,\,D(x,x+\delta) \\ such\,\,that\,\,C(x+\delta)=t \,\,\,\, x+\delta\in[0,1]^n$
上述的优化问题是无法直接求解的，因此需要定义关于分类的损失函数 $f$ ，使得当且仅当 $f(x+\delta)\leq0$ 时， $C(x+\delta)=t$ 成立，从而联立 $D$ 与 $f$ ，形成可解的优化函数形式。这里作者讨论了以下7种损失函数，其中， $s o f t p l u s (x) = l o g (1 + e x p (x))$ ，而 $l o s s$ 代表交叉熵损失函数。
$f_1(x') = -loss_{F,t}(x') + 1 \\ f_2(x') = (\underset{i\neq t}{max} F(x')_i - F(x')_t)^+ \\ f_3(x') = softplus(\underset{i\neq t}{max} F(x')_i - F(x')_t) - log(2) \\ f_4(x') = (0.5 - F(x')_t)^+ \\ f_5(x') = -log(2F(x')_t - 2) \\ f_6(x') = (\underset{i\neq t}{max} Z(x')_i - Z(x')_t)^+ \\ f_7(x') = softplus(\underset{i\neq t}{max} Z(x')_i - Z(x')_t) - log(2)$

最低0.47元/天解锁文章

Lovewxy_不再回忆

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
Paper笔记：《Towards Evaluating the Robustness of Neural Networks》（CW攻击）

论文： https://arxiv.org/pdf/1608.04644.pdf?source=post_page代码：https://github.com/Harry24k/CW-pytorchMotivation 又是一篇对抗攻击领域的基石之作，论文的思路主要针对当时最强的防御方法——防御性蒸馏。在当时，几乎所有的攻击方法都无法攻破防御性蒸馏，而本文的方法在面对防御性蒸馏时，取得了几乎100%的攻击成功率，这也再一次推动了对抗攻防算法的演进。Contribution 作者提出了一种新的攻击
复制链接

扫一扫