链接:https://arxiv.org/abs/1610.08401
作者:Seyed-Mohsen Moosavi-Dezfooli,Alhussein Fawzi,Omar Fawzi,Pascal Frossard
摘要:
对于任意给定的高效DNN分类器,作者都能为输入图片施加一个扰动,使得分类器以较大概率分类错误,从而实现对于dCNN的攻击。这个“扰动”有两个特点:1.universal,即扰动与输入图片无关,仅与模型本身相关。2.very small,具有小的范数,从而不改变图片本身的结构。另外,作者提出了一个算法,使得对于不同的模型VGG、GoogLeNet、ResNet等都很容易计算出各自对应的扰动。
左侧是输入图片和正确的分类结果,加入扰动之后变成右侧的图片及其错误的分类结果。
本文的工作包括:
1. 说明了通用扰动确实存在
2. 提出了扰动生成算法
3. 展示了扰动优异的泛化性能(通过较小的样本图片集合就能生成扰动)
4. 展示扰动不仅对于输入图片是universal,对于网络架构同样是universal
5. 分析了universal perturbations可用于攻击DNN的一些数学解释
记
μ
μ
是图片空间
ℝd
R
d
中的分布,采样获得图片集
X={x1,x2,...,xm}
X
=
{
x
1
,
x
2
,
.
.
.
,
x
m
}
,
kˆ
k
^
是分类器函数,扰动向量
v∈ℝd
v
∈
R
d
,则问题转化为确定
v
v
,使得以下约束满足:
1.
2.
ℙx∼μ(kˆ(x+v)≠kˆ(x))≥1−δ
P
x
∼
μ
(
k
^
(
x
+
v
)
≠
k
^
(
x
)
)
≥
1
−
δ
其中
ξ
ξ
控制扰动的范数,
δ
δ
量化了fooling rate。
扰动生成算法是基于
v=0
v
=
0
的初始情况下迭代生成最优
v
v
的,在迭代过程中,如果当前的不是一个有效扰动,则令
再记投影操作
则 v v 的更新法则为:
记 Xv={x1+v,x2+v,...xm+v} X v = { x 1 + v , x 2 + v , . . . x m + v } ,则迭代停止条件为:
如图:
![这里写图片描述](https://i-blog.csdnimg.cn/blog_migrate/ca40436954028024315a99173a767272.png)
通过在 M=10000 M = 10000 的 X X 上训练算法,ILSVRC2012验证集(50000图)上测试,CaffeNet, VGG, GoogLeNet, ResNet均可以实现80%(部分90%)的fooling rate了。而在跨模型测试中,fooling rate普遍在40%的水平(部分50%),且VGG训练出的将具有最好的跨模型扰动效果。
作者将“欺骗”GoogLeNet的过程用一个图来表示,发现该架构中确实存在一些dominant labels,因为算法得到的
v
v
<script type="math/tex" id="MathJax-Element-119">v</script>能够给大部分图片“穿上”这些label的“衣服”。