【论文快读】Universal adversarial perturbations（2017）

最新推荐文章于 2022-06-06 20:40:58 发布

玄云飘风

最新推荐文章于 2022-06-06 20:40:58 发布

阅读量5.7k

点赞数 5

分类专栏：论文阅读

本文链接：https://blog.csdn.net/tfcy694/article/details/80455899

版权

论文阅读专栏收录该内容

23 篇文章 1 订阅

订阅专栏

链接：https://arxiv.org/abs/1610.08401
作者：Seyed-Mohsen Moosavi-Dezfooli，Alhussein Fawzi，Omar Fawzi，Pascal Frossard
摘要：
这里写图片描述
对于任意给定的高效DNN分类器，作者都能为输入图片施加一个扰动，使得分类器以较大概率分类错误，从而实现对于dCNN的攻击。这个“扰动”有两个特点：１.universal，即扰动与输入图片无关，仅与模型本身相关。２.very small，具有小的范数，从而不改变图片本身的结构。另外，作者提出了一个算法，使得对于不同的模型VGG、GoogLeNet、ResNet等都很容易计算出各自对应的扰动。
这里写图片描述

左侧是输入图片和正确的分类结果，加入扰动之后变成右侧的图片及其错误的分类结果。

本文的工作包括：
1. 说明了通用扰动确实存在
2. 提出了扰动生成算法
3. 展示了扰动优异的泛化性能（通过较小的样本图片集合就能生成扰动）
4. 展示扰动不仅对于输入图片是universal，对于网络架构同样是universal
5. 分析了universal perturbations可用于攻击DNN的一些数学解释

记 $\mu$ 是图片空间 $\mathbb{R}^d$ 中的分布，采样获得图片集 $X=\{x_1,x_2,...,x_m\}$ ， $\widehat{k}$ 是分类器函数，扰动向量 $v\in\mathbb{R}^d$ ，则问题转化为确定 $v$ ，使得以下约束满足：
1. $\|v\|_p\leq\xi$
2. $\mathbb{P}_{x\sim\mu}(\widehat{k}(x+v)\neq\widehat{k}(x))\geq1-\delta$
其中 $\xi$ 控制扰动的范数， $\delta$ 量化了fooling rate。
扰动生成算法是基于 $v=0$ 的初始情况下迭代生成最优 $v$ 的，在迭代过程中，如果当前的 $v$ 不是一个有效扰动，则令

Δ v i = a r g min r ‖ r ‖ 2 s . t . k ˆ (x i + v + r) \neq k ˆ (x i)

$\Delta v_i=arg\min_r\|r\|_2 s.t. \widehat{k}(x_i+v+r)\neq\widehat{k}(x_i)$
再记投影操作

 p, ξ (v) = a r g min v' ‖ v - v' ‖ 2 s . t . ‖ v' ‖ p \leq ξ

$\mathcal{P}_{p,\xi}(v)=arg\min_{v'}\|v-v'\|_2 s.t.\|v'\|_p\leq\xi$
则

v v $v$ 的更新法则为：

v = P_{p, ξ} (v + Δ v_{i})

$v=\mathcal{P}_{p,\xi}(v+\Delta v_i)$
记

Xv＝{x1+v,x2+v,...xm+v} X v ＝ { x 1 + v , x 2 + v , . . . x m + v } $X_v＝\{x_1+v,x_2+v,...x_m+v\}$ ，则迭代停止条件为：

E r r (X v) = 1 m \sum i = 1 m 1 k ˆ (x i + v) \neq k ˆ (x i) \geq 1 - δ

$Err(X_v)=\dfrac{1}{m}\sum_{i=1}^m1_{\widehat{k}(x_i+v)\neq\widehat{k}(x_i)}\geq1-\delta$
如图：
这里写图片描述

通过在

M=10000 M = 10000 $M=10000$ 的

X X $X$ 上训练算法，ILSVRC2012验证集(50000图)上测试，CaffeNet, VGG, GoogLeNet, ResNet均可以实现80%(部分90％)的fooling rate了。而在跨模型测试中，fooling rate普遍在40%的水平(部分50%)，且VGG训练出的

v

$v$ 将具有最好的跨模型扰动效果。

作者将“欺骗”GoogLeNet的过程用一个图来表示，发现该架构中确实存在一些dominant labels，因为算法得到的 v <script type="math/tex" id="MathJax-Element-119">v</script>能够给大部分图片“穿上”这些label的“衣服”。
这里写图片描述

玄云飘风

关注

5
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
【论文快读】Universal adversarial perturbations（2017）

连接：作者：Seyed-Mohsen Moosavi-Dezfooli，Alhussein Fawzi，Omar Fawzi，Pascal Frossard 摘要：对于任意给定的高效DNN分类器，作者都能为输入图片施加一个扰动，使得分类器以较大概率分类错误，从而实现对于dCNN的攻击。这个“扰动”有两个特点：１.universal，即扰动与输入图片无关，仅与模型本身相关。２.very...
复制链接

扫一扫