[论文笔记]A Learning and Masking Approach to Secure Learning
一、 前言
本文分别提出了对抗样本攻击和防御的方法 。
攻击方法为:ALN (attack learning neural network),其损失函数由两部分:(1)对抗样本使得分类器分类错误,(2)使得对抗样本与原样本的差异尽可能小。
防御方法为:DLN(defense learning neural network)、NAC(noise augmented classifier)。 DLN的损失函数包括两部分:(1)去噪后的样本使得分类器分类正确(2)去噪后的样本与原样本的差异尽可能小。NAC是在神经网络的logits输出层加入噪声,以此来愚弄对抗样本。DLN防御高干扰的对抗样本(如FSGM、ALN)比较有效,而NAC防御低干扰的对抗样本(如CW)比较有效。
二、ALN (attack learning neural network)
损失函数为:
α
s
i
m
‾
(
x
,
x
′
)
−
o
p
s
i
m
‾
(
C
a
t
(
y
x
)
,
C
p
(
x
′
)
)
\alpha\overline{sim}(x,x')-\overline{opsim}(Cat(y_{x}),C_{p}(x'))
αsim(x,x′)−opsim(Cat(yx),Cp(x′))
其中
α
\alpha
α为超参数,可利用网格搜索来确定,
x
′
x'
x′为对抗样本,
C
a
t
(
y
x
)
Cat(y_{x})
Cat(yx)为
x
x
x的真实标签分布,
C
p
(
x
′
)
C_{p}(x')
Cp(x′)为
x
′
x'
x′的预测标签分布。
三、DLN(defense learning neural network)
损失函数为:
α
s
i
m
‾
(
x
,
D
(
x
′
)
)
+
o
p
s
i
m
‾
(
C
a
t
(
y
x
)
,
C
p
(
D
(
x
′
)
)
)
\alpha\overline{sim}(x,D(x'))+\overline{opsim}(Cat(y_{x}),C_{p}(D(x')))
αsim(x,D(x′))+opsim(Cat(yx),Cp(D(x′)))
其中
α
\alpha
α可设置为1,D为去噪自编码。
图A表明线性分类器不足以学习非线性分类边界,图B为ALN示意图,图C为DLN示意图(与ALN相反)。
四、NAC(noise augmented classifier)
对于低干扰的对抗样本,它们大多在分类边界附近,因此可以通过屏蔽分类边界来愚弄低干扰对抗样本。具体可在神经网络的logits输出上加入噪声。这些噪声要足够的小,以保证不能影响原来样本的分类精度,但是却能够破坏低干扰的攻击。
五、Repeated DLN Against Multiple Attacks
图A图B为多次DLN防御高干扰对抗样本示意图,图C图D为多次DLN防御低干扰样本示意图
参考文献:
Linh Nguyen, Sky Wang, Arunesh Sinha.A Learning and Masking Approach to Secure Learning.2017.