EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES
ABSTRACT
一些机器学习模型因输入小的干扰但以高百分比生产错误显现的现象最早被解释为过拟合或非线性,但本文认为神经网络易受对抗性扰动影响的主要原因是其线性性质,由此观点产生了快速生成对抗性例子的方法,减少了MNIST数据集上的最大输出网络的数据集误差。
INTRODUCTION
Szegedy等人发现包括最先进的神经网络在内的机器学习模型都容易受到对抗性例子地攻击。即机器学习模型错误地分类里与数据分布中提取的正确。分类的示例只是略有不同,敌对的例子暴露了训练算法中的基本盲点。高维空间中的线性行为很容易引起对抗实例。改变为非线性模型族的正则化策略能显著降低模型对抗性例子的脆弱性。线性模型易于训练,非线性模型利于抗干扰。
RELATED WORK
Szegedy等人展示了神经网络的相关模型和一些特性,结果表明现在机器学习技术的分类器并没有学习确定正确输出标签的真正底层概念。在计算机视觉中一种流行的方法是使用卷积网络特征作为欧几里得距离近似于感知距离的空间,若具有非常小的感知距离的图像对应于网络表示中完全不同有的类,这种相似性就存在缺陷。
THE LINEAR EXPLANATION OF ADVERSARIAL EXAMPLES
实际情况下,单个输入特征的精度是有限的,例如数字图像的像素只有8位,那么可以表示的最高精度就是
1
255
\frac {1} {255}
2551,如果扰动η的每个元素都小于特征值的精度,将不会对造成分类异常。对于对抗输入
x
~
=
x
+
η
\tilde{x}=x+η
x~=x+η,目标就是当ε足够小,且
∣
∣
η
∣
∣
∞
<
ε
||η||_∞<ε
∣∣η∣∣∞<ε,扰动可以被传感器或数据存储设备丢弃。考虑权向量w和对抗示例
x
~
\tilde{x}
x~之间的点乘。
w
T
x
~
=
w
T
x
+
w
T
η
w^T\tilde{x}=w^Tx+w^Tη
wTx~=wTx+wTη
激活会因为对抗扰动
w
T
x
+
w
T
η
w^Tx+w^Tη
wTx+wTη二增加,可以通过指定
η
=
s
i
g
n
(
w
)
η=sign(w)
η=sign(w),在最大番薯约束下最大化这种增量。如果w有n个维度,权重向量中一个元素的平均值为m,则激活度将会最多增长∈mn。对于高维问题,可以作许多无穷小的改变输入加在一起输出。可以将这看作一个隐式约束,即使其他信号的振幅要大得多的情况下,线性模型被迫只关注预期权重最接近的信号。一个简单的线性模型的输入具有足够多的维度,则可以产生对抗样本,同时softmax回归最容易受到对抗样本的攻击。
LINEAR PERTURBATION OF NON-LINEAR MODELS
更多的非线性模型,如sigmoid网络,都经过了仔细的调整,以满足用户的需求。由于同样的原因,它们大部分时间处于非饱和、更线性的状态。这种线性行为这表明,线性模型简单的分析扰动也会破坏神经网络。假设θ 是模型的参数,x是模型的输入,y是与x相关联的目标(例如有目标的机器学习任务)和J(θ, x, y)用于训练神经网络的代价函数。可以将成本函数线性化为θ, 求最优最大范数约束干扰。
η
=
ε
s
i
g
n
(
∇
x
J
(
θ
,
x
,
y
)
)
η=εsign (∇_xJ(θ, x, y))
η=εsign(∇xJ(θ,x,y))
将之称为“快速梯度符号法”,同时反向传播可以有效的计算出所需要的梯度。这种方法可以可靠的导致各种模型对其输入的错误分类,同时也发现,在梯度方向上旋转一个小角度可以可靠地产生对抗的例子。
ADVERSARIAL TRAINING OF LINEAR MODELS VERSUS WEIGHT DECAY
如果我们训练一个模型来区分标签y∈{-1,1}
P
(
y
=
1
)
=
σ
(
w
T
x
+
b
)
P(y = 1) = σ(w^Tx+b)
P(y=1)=σ(wTx+b) σ(x)时逻辑符号函数,那么训练包括梯度下降
E
x
,
y
∼
p
d
a
t
a
ζ
(
−
y
(
w
x
+
b
)
)
E_{x,y}∼p_{data} ζ(−y(w^x + b))
Ex,y∼pdataζ(−y(wx+b))
ζ
(
z
)
=
l
o
g
(
1
+
e
x
p
(
z
)
)
ζ(z) = log (1 + exp(z))
ζ(z)=log(1+exp(z))是softplus函数.我们可以基于梯度符号推导出一种简单的解析形式来训练x的最坏情况下的扰动,而不是x本身。梯度的符号是−sign(w),又有
w
s
i
g
n
(
w
)
=
∣
∣
w
∣
∣
1
w^sign(w) = ||w||_1
wsign(w)=∣∣w∣∣1,则在逻辑回归下的对抗训练是最小化
E
x
,
y
∼
p
d
a
t
a
ζ
(
y
(
ε
∣
∣
w
∣
∣
1
−
w
T
x
−
b
)
)
E_{x,y}∼p_{data} ζ(y(ε||w||_1 − w^Tx − b))
Ex,y∼pdataζ(y(ε∣∣w∣∣1−wTx−b))
如果从逻辑回归转向多类softmax回归,L1权重衰减会变得更加恶劣,它认为每个softmax输出都是独立扰动的,但实际不可能找到一个与类的所有权重向量的η。权重衰减更高古了扰动可实现的损害。