NESTEROV ACCELERATED GRADIENT AND SCALE INVARIANCE FOR ADVERSARIAL ATTACKS(Nesterov 加速梯度和缩放不变性攻击)
摘要
深度学习模型对于在良性输入的运用人类不可察觉的扰动所构造的对抗样本具有脆弱性。然而,在黑盒设置下,大多数已经存在的攻击攻击其他防御模型时,迁移性不足。在这篇文章中,从生成对抗样本作为一个优化的过程,我们提出了两个新的方法来改善对抗样本的迁移性,命名为 **Nesterov Iterative Fast Gradient Sign Method(NI-FGSM)**和 Scale-Invariant attack Method(SIM),NI-FGSM目的在于将Nesterov加速梯度引入到爹地攻击中,有效的向前看和改善对抗样本的迁移性。SIM是基于我们在深度学习模型上发现的缩放不变属性,我们利用杠杆优化在输入图像的缩放拷贝的对抗扰动,来避免过拟合,在白盒模型被攻击病情生成更具有迁移性的样本。NI-FGSM和SIM可以被自然的集成搭建一个更加鲁棒的基于迭代的攻击来生成更具有迁移性的对卡给样本来攻击防御模型。在ImageNet数据集上的实验结果证明了,我们攻击方法展示了更高的迁移性并且或饿了更高的攻击成功率比顶尖的基于梯度的攻击。
1 介绍
深度学习模型被证明具有脆弱性对于对抗样本。这些对抗样本是通过在良性的输入上运用人眼不可产觉的扰动生成的,并且可以导致一个错误的分类。除此之外,对抗样本有一个迁移性的性质,通过当前模型构造的对抗样本也可以欺骗其他的未知的模型。因为对抗样本可以帮组识别模型的鲁棒性,通过对抗训练改善模型的鲁棒性,学习如何生成对抗样本具有很高的迁移性是非常重要的,在文献中受到越来越多的关注。
几个基于地图的攻击已经被提出来生成对抗样本,例如单步攻击和迭代攻击。在白盒设置下。具有当前模型的知识,现有的攻击方法可以获得一个很高的准确率。然而,在黑盒设置下,他们经常展现出低的成功率,特别的,对于具有防御机制的mixing,例如对抗训练和输入修改的。在黑盒设置下,现有存在的攻击方法不萌生成一个鲁棒的对抗样本来攻击防御模型。
在这篇文章中,通过将对抗生成的过程作为一个优化的处理,我们提出了两个新的方法来改善对抗样本的迁移性; **Nesterov Iterative Fast Gradient Sign Method(NI-FGSM)**和 Scale-Invariant attack Method(SIM),
- 受到Nesterov加速梯度比动量好对于传统优化的事实的灵感,我们将Nesterov加速梯度引入到基于梯度的迭代攻击,可以高效的向前看并且改善对抗样本的迁移性。我们希望NI-FGSM可以取代动量迭代基于梯度的方法,在梯度加速的部分并且产生高的表现。
- 除此之外,我们发现深度学习模型有一个缩放不变的性质,并且提出了缩放不变攻击方法(SIM)来改善对抗样本的迁移性,通过优化在输入图片的缩放拷贝的对抗扰动,SIM可以避免过拟合在白盒攻击下并且可以生成更加具有迁移性的对抗样本来攻击其他的黑盒模型。
- 我们发现结合我们的NI-FGSM和SIM,现有的基于梯度的攻击方法(例如:多样性输入方法)可以进一步的提高对抗样本的攻击成功率。
在ImageNet数据集上进一步的实验表明了我们的方法可以攻击常规训练的模型和对抗训练的模型,以更高的攻击成功率,比现有的基线攻击。我们的最好的攻击方法( SI-NI-TI-DIM)(缩放不变,Nesterov 迭代FGSM集成平移不变性多样性输入方法),在黑盒设置下可以达到平均93.%的成功率,攻击对抗训练的模型。为了进一步证明,我们通过攻击最新的鲁棒防御方法来评估我们的方法。结果表明我们的方法生成对抗样本相比于顶尖的基于迭代的攻击具有跟好的迁移性。
2 预备性
2.1 定义
设 x x x和 y t r u e y^{true} ytrue是良性图片和对应的真实的标签,设 J ( x , y t r u e ) J(x, y^{true}) J(x,ytrue)是分类器的损失函数(例如:交叉熵损失)。设 x a d v x^{adv} xadv是良性图片 x x x对应的对抗样本。无目标攻击的目标是找到一个对抗样本 x a d v x^{adv} xadv可以最大化损失函数 J ( x a d v , y t r u e ) J(x^{adv}, y^{true}) J(xadv,ytrue)在 L P L_P LP范数之内的扰动,为了与之前的工作对比,我们在这篇文章中设置 p = ∞ p = \infty p=∞来测量 x a d v x^{adv} xadv和 x x x之间的扰动。也就是 ∥ x a d v − x ∥ ∞ ≤ ϵ \parallel{x^{adv} - x}\parallel_\infty \leq \epsilon ∥xadv−x∥∞≤ϵ, ϵ \epsilon ϵ是对抗扰动的幅度。
2.2 攻击方法
已经有几个攻击方法被提出来生成对抗样本。这里,我们做一个简单的介绍。
Fast Gradient Sign Method(FGSM). FGSM生成对抗样本
x
a
d
v
x^{adv}
xadv通过最大化损失函数
J
(
x
a
d
v
,
y
t
r
u
e
)
J(x^{adv}, y^{true})
J(xadv,ytrue),只有一步的更新
x
a
d
v
=
x
+
ϵ
⋅
s
i
g
n
(
∇
x
J
(
x
,
y
t
r
u
e
)
)
(1)
x^{adv} = x + \epsilon \cdot sign(\nabla{x}J(x, y^{true})) \tag{1}
xadv=x+ϵ⋅sign(∇xJ(x,ytrue))(1)
s
i
g
n
(
⋅
)
sign(\cdot)
sign(⋅)限制扰动在
L
∞
L_\infty
L∞无穷范数内。
Iterative Fast Gradient Sign Method(I-FGSM). Kurakin等人拓展了FGSM到一个迭代的版本,通过运用FGSM,用一个小的步长
α
\alpha
α
x
0
=
x
,
x
t
+
1
a
d
v
=
C
l
i
p
x
ϵ
{
x
t
a
d
v
+
α
⋅
s
i
g
n
(
∇
x
J
(
x
t
a
d
v
,
y
t
r
u
e
)
)
}
(2)
x_0 = x, \quad x^{adv}_{t+1} = Clip^\epsilon_x\{x^{adv}_t + \alpha \cdot sign(\nabla{x}J(x^{adv}_t, y^{true}))\} \tag{2}
x0=x,xt+1adv=Clipxϵ{xtadv+α⋅sign(∇xJ(xtadv,ytrue))}(2)
C
l
i
p
x
ϵ
(
⋅
)
Clip^\epsilon_x(\cdot)
Clipxϵ(⋅)限制对抗样本在
x
x
x的
ϵ
\epsilon
ϵ-ball内。
Projected Gradient Descent(PGD). PGD攻击是一个强的迭代变种FGSM。它包含了随机的在允许的范数内起点,然后允许运行多次的迭代I-FGSM来生成对抗样本。
Momentum Iterative Fast Gradient Sign Method(MI-FGSM). Dong等人将动量集成到迭代攻击并且导致了一个更高的迁移性对于对抗样本。他们的更新步骤如下:
KaTeX parse error: Unknown column alignment: g at position 16: \begin{array} g̲_{t+1} = \mu * …
g
t
g_t
gt是累计的第
t
t
t次的累积的梯度,
μ
\mu
μ是
g
t
g_t
gt的衰减因子。
Diverse Input Method(DIM). Xie等人通过在每次迭代对输入图片进行多样性变换来优化对抗扰动。变换包括随机的重新调整大小和随机的填充,DIM可以被自然的集成到其他的基于梯度攻击的方法来进一步改善对抗样本的迁移性。
Translation-Invariant Method(TIM),不是在单个图片上优化对抗扰动,Dong等人使用了一系列变换的图片来优化对抗扰动。他们呢进一步研究了一个有效的算法来计算梯度,涉及在未变换图片的梯度有一个内核矩阵。TIM也可以自然的集成到其他的基于迭代的攻击方法。TIM和DIM的结合称为TI-DIM,是目前最轻的黑盒攻击方法。
Carlini & Wagner attack(C&W). C&W攻击是一个基于优化的方法,直接优化良性样本和对抗样本之间的距离。
arg main
x
∥
x
a
d
v
−
x
∥
p
−
c
⋅
J
(
x
a
d
v
,
y
t
r
u
e
)
\underset{x}{\operatorname{arg\,main}} \, \parallel{x^{adv} - x}\parallel_p - c \cdot J(x^{adv}, y^{true})
xargmain∥xadv−x∥p−c⋅J(xadv,ytrue)
这是一个强有力的方法来找到对抗样本同时最小化扰动对于白盒攻击,但是对于黑盒攻击而言缺少迁移性。
2.3 防御方法
各种各样的方法方法已经被提出来防御对抗样本,可以分为两个类别。
Adversarial Training. 一种哦流行的推崇的防御方法是对抗训练。通过在训练过程中,增加对抗样本到训练数据中。Madry等人研究了一个成功的对抗样本训练方法,使用梯度投影下降(PGD)来攻击生成对抗样本。然而,这个方法难于匹配打的数据集。Tramr等人提出了集成对抗训练通过各种模型的对抗扰动添加到训练集中,进一步的改善对于黑盒攻击的鲁棒性。目前,对抗训练任然是一个最好的技术来防御对抗样本攻击。
Input Modification. 第二种防御方法目的在于通过修改输入数据来减轻对抗扰动的影响。Guo等人发现存在一些列的图像变换,在保留图片的可视化信息的同时去除对抗扰动。Xie等人减轻对抗样本通过随机的变换。Liao等人提出了高水平的代表降噪来净化对抗样本。Liu等人提出了基于JPEG的防御压缩框架来矫正对抗样本,没有在良性的数据影响分类准确率。Jia等人权衡了一个端对端的图像压缩模型来防御对抗样本。尽管这些防御方法在实践中表现的好,他们不能识别是否一个模型对于对看过样本真的具有鲁棒性。Cohen等人使用了随机滑来获得证实的对抗鲁棒性在一个ImageNet分类器上。
3 方法
3.1 动机
与训练一个神经网络类似,生成对抗样本的过程也可以被看作是一个优化问题。在优化时期,白盒模型被攻击来生成对抗样本,可以被看作在训练过程的训练数据。对看过样本可以被看作是模型的训练的参数。在测试阶段,黑盒模型评估对抗样本可以被看作模型的测试数据。
从优化的角度看,对抗样本的迁移性与模型的泛化能力非常的相似。因此,我们可以将用户改善模型泛化能力的方法来生成对抗样本,进一步改善杜康样本的迁移性。
许多方法被提出来改善深度学习模型的泛化能力,可以被分为两个层面:(1)更好的优化算法,例如Adam优化器(2)数据集增强。对应的,改善对抗样本迁移性的方法也可以被划分为两个层面:(1)更好的优化算法,例如:MI-FGSM,这个运用了动量的思想(2)模型增强(例如:集成攻击在多个模型上),例如Dong的这篇论文,考虑同时攻击多个模型。基于以上的分析,我们目标在于改善对抗样本的迁移性通过御用Nesterov加速梯度来优化,使用一系列的缩放图片来达到模型增强。
3.2 Nesterov Iterative Fast Gradient Sign Method
Nesterov Accelerated Gradient(NAG)是一个常规梯度下降的变种,可以加速训练过程并且明显的改善收敛。NAG可以被看作是一个改进的栋梁的方法,表达如下:
v
t
+
1
=
μ
⋅
v
t
+
∇
θ
t
J
(
θ
t
−
α
⋅
μ
⋅
v
t
)
θ
t
+
1
=
θ
t
−
α
⋅
v
t
+
1
(5)
\begin{array}{l} v_{t+1} = \mu \cdot v_t + \nabla{\theta_t}J(\theta_t - \alpha \cdot \mu \cdot v_t) \\ \theta_{t+1} = \theta_t - \alpha \cdot v_{t+1} \end{array} \tag{5}
vt+1=μ⋅vt+∇θtJ(θt−α⋅μ⋅vt)θt+1=θt−α⋅vt+1(5)
典型的基于梯度的迭代攻击(例如:I-FGSM)在每次的迭代中贪婪的在符号梯度的方向上扰动图片,这通常会进入局部最大值,并且相比于单步攻击(例如:FGSM)迁移性更加的差。Dong等人证明了将动量引入攻击可以稳定更行的方向,这可以规避局部的最大值并且改善迁移性。相比于动量,超过稳定更新方向,NAG的预测的共性,将之前累加的梯度帮助向前看。NAG的这个向前看的属性可以帮助我们规避局部最大值更容易并且更快,最终改善迁移性。
我们将NAG集成到基于梯度的攻击来使用NAG向前看的属性并且建立了一个更加鲁棒性的对抗攻击,我们将它称之为NI-FGSM(Nesterov Iterative Fast Gradient Sign Method)。特别的,我们在之前累加的梯度上进行了一次条鱼,在每次迭代计算梯度之前。起始
g
0
=
0
g_0 = 0
g0=0,NI-FGSM的更新步骤如下:
x
t
n
e
s
=
x
t
a
d
v
+
α
⋅
μ
⋅
g
t
g
t
+
1
=
μ
⋅
g
t
+
∇
x
J
(
x
t
n
e
s
,
y
t
r
u
e
)
∥
∇
x
J
(
x
t
n
e
s
,
y
t
r
u
e
)
∥
1
x
t
+
1
a
d
v
=
C
l
i
p
x
ϵ
{
x
t
a
d
v
+
α
∗
s
i
g
n
(
g
t
+
1
)
}
(8)
\begin{aligned} & x^{nes}_t = x^{adv}_t + \alpha \cdot \mu \cdot g_t \\ & g_{t+1} = \mu \cdot g_t + \frac{\nabla{x}J(x^{nes}_t, y^{true})}{\parallel{\nabla{x}J(x^{nes}_t, y^{true})}\parallel_1} \\ & x^{adv}_{t+1} = Clip^\epsilon_x\{x^{adv}_t + \alpha * sign(g_{t+1})\} \tag{8} \end{aligned}
xtnes=xtadv+α⋅μ⋅gtgt+1=μ⋅gt+∥∇xJ(xtnes,ytrue)∥1∇xJ(xtnes,ytrue)xt+1adv=Clipxϵ{xtadv+α∗sign(gt+1)}(8)
g
t
g_t
gt表示第
t
t
t次的累加梯度,
μ
\mu
μ表示
g
t
g_t
gt的衰减因子
3.3 Scale-Invariant Attack Method
对于攻除了考虑一个更好的优化算法,我们也通过模型增强来改善对抗样本的迁移性,我们首先引入损失保留和模型增强的公式定义。
Definition 1 Loss-preserving Transformation. 设输入 x x x和他对应的标签 y t r u e y^{true} ytrue和一个分类器 f ( x ) f(x) f(x): , x ∈ X → y ∈ Y ,x \in X \rightarrow y \in Y ,x∈X→y∈Y,交叉熵损失函数 J ( x , y ) J(x, y) J(x,y),如果存在一个输入变换 T ( ⋅ ) T(\cdot) T(⋅)满足 J ( T ( x ) , y t r u e ) ≈ J ( x , y t r u e ) J(T(x), y^{true}) \approx J(x, y^{true}) J(T(x),ytrue)≈J(x,ytrue)对于任意的 x ∈ X x \in X x∈X,我们就称 T ( ⋅ ) T(\cdot) T(⋅)是一个损失保留的变换
Definition 2 Model Augmentation. 设输入 x x x和他对应的标签 y t r u e y^{true} ytrue和一个分类器 f ( x ) f(x) f(x): , x ∈ X → y ∈ Y ,x \in X \rightarrow y \in Y ,x∈X→y∈Y,交叉熵损失函数 J ( x , y ) J(x, y) J(x,y),如果存在一个输入变换 T ( ⋅ ) T(\cdot) T(⋅),我们定义一个新的模型 f ′ ( x ) = f ( T ( x ) ) f'(x) = f(T(x)) f′(x)=f(T(x)), 原始模型 f f f。我们将这种推导的模型称为模型增强。
直观的,与模型的泛化类似,通过喂入更多的训练数据来改善,对抗样本的迁移性统一可以通过同时攻击更多的模型来改善,Dong等人功过攻击一个集成的模型来改善基于梯度的攻击。然而,他们的方法需要训练一系列的不同的模型来攻击,这需要一个很大的计算资源。相反,这篇文章中,我们通过模型增强来派生出一个集成的模型,这是通过损失保留的变换来获得多个模型的一个简单的方法。
为了得到损失保留的变换,我们发现深度神经网络有一个变量不变的特性,除了变换不变性。特别的,在同一个模型的原始和缩放的图片的损失值是相似的。在4.2部分通过实验验证。因此,变量变换可以被当作是一个模型增强的方法。通过以上的分析,我们提出了Scale-Invariant Attack Method(SIM),通过输入图片的缩放拷贝来优化对抗扰动:
arg max
x
1
m
∑
i
=
0
m
J
(
S
i
(
x
a
d
v
,
y
t
r
u
e
)
)
s
.
t
.
∥
x
a
d
v
−
x
∥
∞
≤
ϵ
(9)
\begin{array}{l} \underset{x}{\operatorname{arg\,max}} \frac{1}{m} \sum^m_{i = 0}J(S_i(x^{adv}, y^{true})) \\ s.t. \parallel{x^{adv} - x}\parallel_\infty \leq \epsilon \end{array} \tag{9}
xargmaxm1∑i=0mJ(Si(xadv,ytrue))s.t.∥xadv−x∥∞≤ϵ(9)
S
i
(
x
)
=
x
/
2
i
S_i(x) = x / 2^i
Si(x)=x/2i 表示输入图片
x
x
x 缩放因子
1
/
2
i
1 / 2^i
1/2i,
m
m
m表示缩放拷贝的数量。使用SIM,而不是训练一些列的模型来攻击,我们可以有效的获得一个集成攻击在多个模型上通过模型增强。更重更要的是,它可以帮助我们避免“过拟合”在白盒攻击下,并且生成更具有迁移性的对抗样本。
3.4 攻击算法
对于构建对抗样本的梯度处理,Ni-FGSM引入了一个较好的优化算法来稳定并且修正更新方向在每次的迭代过程中。对于集成攻击来攻击对看过样本,SIM引入了模型增强来从攻击单个模型派生出多个模型。因此,Ni-FGSM和SIM可以被自然的结合到一起构建一个更强的攻击,我们称之为SI-MI-FGSM(Scale-Invariant Nesterov Iterative Fast Gradient Sign Method).这个算法SI-NI-FGSM攻击总结在算法1.
除此之外,SI-NI-FGSM可以和DIM集成在一起(Diverse Input Method),TIM(Translatin-Invariant Method)和TI-DIM(Translation-Invariant with Diverse Input Method)作为SI-NI-DIM, SI-NI-TIM, 和SI-NI-TI-DIM来进一步增强对抗样本的鲁棒性,对于这些攻击方法的细节描述在附录A
4 实验结果
在这个部分,我们对所提出的方法的优点进行了实验证明。我们首先提供了实验设置,接下来探索了对于深度学习模型的缩放不变的属性。之后,我们比较了所提出的方法和其他极限方法的结果在4.3和4.4部分在常规训练和对抗训练的模型。除了基于对看过训练的防御模型,我们也在4.5部分量化了所提出的方法的有效性在其他的高级的防御方法下。额外的讨论,NI-FGSM和MI-FGSM的比较和其他经典攻击的额比较在4.6部分。代码在 https://github.com/JHL-HUST/SI-NI-FGSM
4.1 实验设置
Dataset,我们随机选取了1000张属于1000个类别的来自ILSVRC 2012验证集的图片,这些推按总是能被所有的测试模型分类正确。
Models. 对于常规训练的模型,我们考虑 Inception-v3(Inc-v3), Inception-v4(Inc-v4), Inception-Resnet-v2(IncRes-v2)和Resnet-v2-101(Res-101)。对于对看过训练的模型,我们考虑 Inc-v3 e n s 3 _{ens3} ens3, Inc-v3 e n s 4 _{ens4} ens4和IncRes-v2 e n s _{ens} ens。
除此之外,我们包含了其他高级的防御模型:high-level representation guided denser(HGD), random resizing and padding(R&P), NIPS-r3, feature distillation(FD), purifying perturbations via image compressiono model(Comdefend) randomize smoothing(RS)
Baselines. 我们集成我们的方法和,DIM,TIM, TI-DIM,来证明SI-NI-FGSM比这些基线好。将和SI-NI-FGSM集成的其他方法定义为SI-NI-DIM, SI-NI-TIM, 和SI-NI-TI-DIM。
Hyper-parameters. 对于超参数,我们遵循爱Dong的人的设置,最大的扰动 ϵ = 16 \epsilon=16 ϵ=16, 迭代次数 T = 10 T = 10 T=10,步长 α = 1.6 \alpha = 1.6 α=1.6,我们采用的默认衰减因子 μ = 1.0 \mu = 1.0 μ=1.0。对于DIM,变换概率 p = 0.5 p = 0.5 p=0.5对于TIM,我们采用 Gaussian Kernel,大小设置为 7 × 7 7 \times 7 7×7.对于我们的SI-NI-FGSM,缩放拷贝的数量为 m = 5 m = 5 m=5。
4.2 缩放不变的属性
为了验证深度神经网络的标量不表的性质,我们随机选这了1000张原始的来自ImageNet数据上的图片,并且保持标量的范围在[0.1, 2.0],步长为0.1。然后我们将缩放的图片喂入到测试的模型,包括Inc-v3, Inc-v4, IncRes-2, 和Res-101, 来获得这1000张图片的额平局的损失。
如图1所示,我们可以很容易的观察到损失曲线是平缓的并且稳定的单缩放大小在[0.1, 1.3]的方位内。也就是说,原始图片和缩放图片是非常的相似的损失值。所以我们家傻深度模型的缩放不变的属性保持在[0.1, 1.3]之内。并且我们权衡缩放不变的属性来优化在输入图片的额缩放拷贝的对抗扰动。
图1: 在每个缩放大小的 Inc-v3, Inc-v4,IncRes-v2和Res-101的平均损失,这个结果是1000张图片的平均损失。
4.3 攻击单个模型
在这个部分,我们将我们的SI-NI-FGSM和TIM,DIM和TI-DIM,并且比较了黑盒攻击的成功率在我们的拓展下,在单个模型设置的基线下。如表格1所示,我们的拓展方法始终优于基线方法10%~35%在黑盒设置下。达到了几乎100%的成功了在白盒设置下。这表明SI-NI-FGSM可以作为一个强有力的方法来改善对抗样本的迁移性。
表1:对七个模型在单模型设置下的对抗攻击的成功率。用Inc-v3, Inc-v4, IncRes-v2, 和Res-101来构造对抗样本。 ⋆ ^\star ⋆表示白盒攻击。
4.4 攻击一个集成的网络
遵循Liu等人的工作,我们考虑将我们的方法运用在同时攻击多个网络。特别的,我们攻击一个集成的常规训练的网络(包括Inc-v3, Inc-v4, IncRes-v2和Res0101),用相应的集成权重,使用TIM,SI-NI-TIM, DIM, SI-NI-DIM, TI-DIM, SI-NI-TI-DIM。
如表2所示,我们的方法在所有的基线上在所有的实验中改善了攻击成功率。一般的,我们的方法在黑盒设置下始终比极限攻击优于10%~30%。特别的,SI-NI-TI-DIM,这个拓展通过集合SI-NI-FGSM和TI-DIM,可以以平局93.5%的高成功率欺骗对看过训练的模型,这表明这些在黑盒攻击SI-NI-TI-DIM下,高级的对抗训练的模型只提供了较小的鲁棒性担保。
表2:对七个模型在多模型设置下的对抗攻击的成功率。用Inc-v3, Inc-v4, IncRes-v2, 和Res-101来构造对抗样本。 ⋆ ^\star ⋆表示白盒攻击。
4.5 攻击其他高级防御模型
出了常规训练的模型和对抗训练的模型,我们考虑用其他的高级防御来量化我们的方法的有效性,包括在NIPS比赛上的top-3的防御方案(high-level representation guided denoiser(HGD, rank-1)) random resizing and padding(R&P), NIPS-r3, 三个最近提出的防御方法:feature distillation(FD), purifying perturbations via image compressiono model(Comdefend) randomize smoothing(RS)。
我们比较了我们的SI-NI-TI-DIM和MI-FGSM,这是在NIPS 2017比赛上top-1的攻击方案,和TI-DIM,顶尖的攻击。我们首先在集成的模型上生成对看过样本,包括Inc-v3, Inc-v4, IncRes-v2, Res-101通过使用 MI-FGSM, TI_DIM, 和SI-NI-TI-DIM。然后,我们通过攻击这些防御来评估对抗样本。
如表3所示,我们的方法SI-NI-TI-DIM达到了评估90.%的攻击成功率,超过顶尖的攻击14.7%。通过仅仅依赖对抗样本的迁移性,和攻击常规训练的模型,SI-NI-TI-DIM可以其他对抗训练的模型和其他攻击的防御机制,引起了对于更加鲁棒的深度学习模型的安全问题。一些通过SI-NI-TI-DIM生成的对抗样本在附录B。
表3: 攻击高级的防御方法的对抗攻击成功率
4.6 进一步的分析
NI-FGSM和MI-FGSM。我们实施了额外的分析来比较NI-FGSM和MI-FGSM的不同,通过Inc-v3,各种的迭代次数从4-16,所构造的对看过样本,然后迁移攻击Inc-v4和IncRes-v2。如图2所示,NI-FGSM产生了更高的攻击成功率相比于MI-FGSM,具有同样的迭代次数,从另一个角度,NI-FGSM需要较少的迭代次数来获得与MI-FGSM相同的攻击成功率。记过不只表明了NI-FGSM有一个更好的迁移性,也表明了了向前看的属性。NI-FGSM可以加速生成对抗样本。
图2: NI-FGSM和MI-FGSM在各种迭代次数的攻击成功率。通过Inc-v3生成的对看过样本,迁移攻击Inc-v4和IncRes-v2.
与经典攻击的比较。我们考虑额外的与经典攻击的比较,包括(FGSM, I-FGSM, PGD, C&W),如表4所示,我们的方法在白盒设置下和C&W一样获得了100%的攻击成功率,并且在黑盒设置下显著优于其他的方法。
表4: 对抗攻击模型的成功率 通过Inc-v3构造的对抗样本,使用 FGSM,I-FGSM, PGD, C&W, NI-FGSM, SI-NI-FGSM. ⋆ ^\star ⋆表示白盒攻击。
5 总结和未来的工作
在这篇文章中,我们提出了两个新的攻击方法,命名为 Nesterov Iterative Fast Gradient Sign Method(NI-FGSM)和Scale-Invariant attack Method(SIM),来改善对抗样本的迁移性,NI-FGSM木的在于将Nesterov accelerated gradient method引入基于梯度的攻击,SIM目的在目通过劝和缩放不变的模型属性来获得模型增强。NI-FGSM和SIM可以被自然的结合到一起来构建一个鲁棒的攻击,命名为SI-NI-FGSM。更多的是,通过集成SI-NI-FGSM和基线攻击,我们可以进一步的改善对抗样本的迁移性。进一步的实验证明了我们的额方法不仅仅产生了更高的攻击准确率在对抗训练的模型上,更重要的是可以突破其他的强的防御机制。
NI-FGSM表明了其他的动量方法(例如:Adam)也可以有助于构建一个强的攻击,这将是我们的未来的工作。关键是如果将优化方法集成到基于迭代的攻击方法中。我们的工作也证明了深度神经网络有一个缩放不变的属性,可以被利用来设置SIM来改善攻击的迁移性,然而,为什么具有缩放不变的性质还是位置的。可能是因为在每一个卷积成的批量正规化,这个可能减轻了尺度改变的影响。在未来的工作中,我们也更深入地探究原因。
致谢
这项工作得到了中央大学基础研究基金(2019kfyXKJC021)和微软亚洲研究院的支持。