作者:Christian Szegedy, Wojciech Zaremba等
链接:https://arxiv.org/abs/1312.6199
摘要:
本文是较早地提出攻击神经网络的文章,工作包括两个方面:
- 神经网络的一个high level units和随机若干个units的线性组合之间并没有本质上的区别。所以在高level中,发挥作用的是整个网络的空间结构,而不是单个神经元。
- 通过对同一input施加同一“小”的扰动,不同的神经网络都会产生相似的误分类。将这些对抗样本加入训练集,则能提高网络的泛化性能。
ϕ ( x ) \phi(x) ϕ(x)的性质
设 ϕ ( x ) \phi(x) ϕ(x)是某一确定神经网络的high level layer的激活级,则测试集 I \mathcal{I} I中,对于自然基 e i \mathcal{e}_i ei和随机向量 v v v, arg max x ∈ I ⟨ ϕ ( x ) , e i ⟩ \arg\max\limits_{x\in\mathcal{I}}\langle\phi(x),\mathcal{e}_i\rangle argx∈Imax⟨ϕ(x),ei⟩和 arg max x ∈ I ⟨ ϕ ( x ) , v ⟩ \arg\max\limits_{x\in\mathcal{I}}\langle\phi(x),v\rangle argx∈Imax⟨ϕ(x),v⟩是semantically related。
NN的盲点
当考虑到网络表示的复杂结构的时候,unit-level的inspection已经无关紧要了,这就是神经网络的平滑性(smoothness),基于这一性质,通常认为小的扰动很难误导神经网络,然而本文很容易就生成了对抗样本。作者利用箱约束下的L-BGFS方法将该问题由
最
小
化
∣
∣
r
∣
∣
2
s
.
t
.
:
1.
f
(
x
+
r
)
=
l
2.
x
+
r
∈
[
0
,
1
]
m
最小化||r||_2\ s.t.:\\ 1.\ f(x+r)=l\\ 2.\ x+r\in[0,1]^m
最小化∣∣r∣∣2 s.t.:1. f(x+r)=l2. x+r∈[0,1]m
转化为
最
小
化
c
∣
r
∣
+
l
o
s
s
f
(
x
+
r
,
l
)
s
.
t
.
x
+
r
∈
[
0
,
1
]
m
最小化c|r|+loss_f(x+r,l)\ s.t.x+r\in[0,1]^m
最小化c∣r∣+lossf(x+r,l) s.t.x+r∈[0,1]m
然后基于权值矩阵的算子范数和Lipschitz条件,对网络的不稳定性进行度量,发现了跨超参数和跨训练集的对抗样本的存在,而且通过正则化降低Lipschitz上界有助于提升泛化性能。