目录
1.简介
深度神经网络已经取得了很多成就,但是近来许多工作已经证明DNN在对抗干扰上是很脆弱的。许多生成对抗算法已经被提出,比如FGSM,OPT等。
当前大多数攻击算法[Carlini andWagner, 2017b;Liu等人,2017]依靠简单的像素空间度量优化方案,如良性图像的 L ∞ L_{\infty} L∞ 距离,来鼓励视觉真实感。为了更有效地生成感知真实的对抗性例子,本文提出训练(i)一个产生扰动的前馈网络来生成不同的对抗性例子,(ii)一个判别网络来确保生成的例子是真实的。我们使用生成式对抗网络(GANs) [Goodfellow et al., 2014]在半白盒和黑盒设置中生成对抗示例。由于条件GANs能够生成高质量的图像[Isola等,2017],我们使用了类似的范例来生成感知现实的对抗性实例。我们将方法命名为AdvGAN。
注意,在以前的白盒攻击中,如FGSM和优化方法,对手需要有白盒访问的架构和模型的所有参数时间。然而,通过部署AdvGAN,一旦前馈网络得到训练,它可以立即为任何输入实例产生反扰动,而不再需要访问模型本身。我们将此攻击设置为半白盒。
为了评估我们的攻击策略Adv-GAN的有效性,我们首先基于adv -GAN和其他针对不同目标模型的攻击策略生成对抗性实例。然后应用最先进的防御系统来抵御这些产生敌对的例子[格拉汉姆·古德费勒et al ., 2015;马˛干et al ., 2017)。我们评估了这些攻击策略在半白盒和黑盒设置。我们证明由AdvGAN生成的对抗性实例可以获得较高的攻击成功率,这可能是因为与其他最近的攻击策略相比,这些对抗性实例更接近真实的实例。
我们的贡献如下:
- 与以往的基于优化的方法不同,我们训练了一个条件对抗性网络,直接生成对抗性实例,不仅可以生成感知逼真的实例,对不同目标模型的攻击成功率最高,而且生成过程更高效。
- 我们证明了AdvGAN可以通过训练一个提取的模型来攻击黑盒模型。我们提出用查询信息动态训练提取的模型,实现高黑盒攻击成功率和有针对性的黑盒攻击,这对于基于可转移性的黑盒攻击是难以实现的。
- 我们使用最先进的防御方法来抵御对抗性示例,并表明AdvGAN在当前防御下实现了更高的攻击成功率。
- 我们在Ma˛dry等人的MNIST挑战(2017)上应用AdvGAN,在半白盒设置中发布的稳健模型达到88.93%,在黑盒设置中达到92.76%,在黑盒子设置中获得最高位置。
2.相关工作
在这里,我们回顾了最近的工作对抗性的例子和生成对抗性网络。
对抗样本 在白盒设置中已经提出了许多用于生成对抗样本的攻击策略,其中攻击者可以完全访问分类器[Szegedy et al。,2014; Goodfellow等,2015; Carlini和Wagner,2017b; Xiao等,2018;胡和谭,2017]。 Goodfellow等人提出了快速梯度符号方法(FGSM),它应用损失函数的一阶近似来构造对抗样本。在形式上,给定一个实例 x x x,攻击者生成对抗样本 x A = x + η x_A = x+\eta xA=x+η 在无目标攻击设置中具有 L ∞ L_{\infty} L∞约束 η = ϵ ⋅ ( ∇ x l f ( x , y ) ) \eta =\epsilon \cdot(\nabla_x \mathcal{l}_f(x,y)) η=ϵ⋅(∇xlf(x,y)),其中 l f ( ⋅ ) \mathcal{l}_f(\cdot) lf(⋅) 是用于训练神经网络 f f f 的交叉熵损失, y y y 代表 x x x的基本事实。基于优化的方法(Opt)也被提议用于优化针对性攻击的对抗性扰动,同时满足某些约束[Carlini和Wagner,2017b; Liu等,2017]。它的目标是最小化目标函数 ∣ ∣ η ∣ ∣ + λ l f ( x A , y ) ||\eta||+\lambda \mathcal {l}_f(x_A,y) ∣∣η∣∣+λlf(xA,y),其中 ∣ ∣ ⋅ ∣ ∣ ||\cdot|| ∣∣⋅∣∣是一个适当选择的范数函数。但是,优化过程很慢,并且只能优化每个特定实例的扰动。相比之下,我们的方法使用前馈网络来生成对抗图像,而不是优化过程。我们的方法对不同的防御实现了更高的攻击成功率,并且比当前的攻击算法执行得更快。
独立于我们的工作,前馈网络已被应用于产生对抗性扰动[Baluja andFischer,2017]。 然而,Baluja和Fischer结合了排名损失和 L 2 L_2 L2规范损失,旨在将生成的对抗实例限制在接近 L 2 L_2 L2的原始范围内; 我们应用深度神经网络作为一个判别器来帮助区分实例与其他真实图像,以鼓励生成的对抗性示例的感知质量。 Hu和Tan [Hu and Tan,2017]也提出使用GAN来生成对抗性的例子。 但是,他们的目标是为恶意软件生成对抗性示例,而我们的工作重点是为图像生成感知的现实对抗示例。
黑盒攻击 基于安全原因,当前的学习系统通常不允许对模型进行白盒访问。因此,需要对黑盒攻击进行分析。
大多数黑盒攻击策略都是基于可转移性现象[Papernot et al。,2016],其中攻击者可以首先训练局部模型并生成对抗样本,希望相同的对抗样本也能够攻击其他模型。 许多学习系统允许对模型进行查询访问。 但是,很少有工作可以利用基于查询的目标模型访问来构建对抗性样本并超越可转移性。 Hu和Tan提议利用GAN构建恶意软件的逃避实例。 Papernot等。 建议训练本地替代模型查询目标模型以生成对抗样本,但这种策略依赖于可转移性。 相反,我们表明,所提出的AdvGAN可以在不依赖可转移性的情况下执行黑盒攻击。
生成性对抗网络(GAN ) Goodfellowet al 已经在图像生成和操作设置方面取得了令人瞩目的结果[Zhu et al。,2016] 。最近,图像到图像的条件GAN进一步提高了合成结果的质量[Isola et al。,2017]。 我们采用类似的对抗性损失和图像到图像网络体系结构来学习从原始图像到扰动输出的映射,使得被扰动的图像不能与原始类中的真实图像区分开来。 与以前的工作不同,我们的目标是产生不仅在视觉上逼真而且能够误导目标学习模型的输出结果。
3.利用生成网络来生成对抗样本
3.1.问题定义
令 X ⊆ R n \mathcal X \subseteq R^n X⊆Rn为特征空间,其中 n n n为特征数。假设 ( x i , y i ) (x_i, y_i) (xi,yi)是训练集内的第 i i i个实例,其由特征向量 x i ∈ X x_i \in \mathcal X xi∈X组成,根据某些未知分布 x i ∼ P d a t a x_i \sim P_{data} xi∼Pdata和 y i ∈ Y y_i\in \mathcal Y yi∈Y生成对应的真正的类标签。 学习系统旨在学习分类器 f : X → Y f: \mathcal X \to \mathcal Y f:X→Y从 X \mathcal X X域到分类输出 Y \mathcal Y Y的集合,其中 ∣ Y ∣ |\mathcal Y| ∣Y∣表示可能的分类输出的数量。 给定一个实例 x x x,攻击者的目标是生成对抗样本 x A x_A xA,它被归类为 f ( x A ) ≠ y f(x_A)\neq y f(xA)=y(无目标攻击),其中 y y y表示真正的标签; 或 f ( x A ) = t f(x_A)= t f(xA)=t(目标攻击)其中 t t t是目标类。 x A x_A xA也应该在 L 2 L_2 L2或其他距离度量方面接近原始实例 x x x。
3.2.AdvGAN框架
图1展示了AdvGAN的总体架构,主要由生成器 G G G、判别器 D D D和目标神经网络 f f f三部分组成。这里生成器 G G G以初始实例 x x x为输入,产生扰动 G ( x ) G(x) G(x)。然后将 x + G ( x ) x+G(x) x+G(x)发送给判别器 D D D,用来区分生成的数据和原始实例 x x x。为了实现愚弄学习模型的目标,我们首先执行白盒攻击,在本例中,目标模型是 f f f。 f f f以 x + G ( x ) x + G(x) x+G(x)为输入输出其损失 L a d v L_{adv} Ladv,表示预测与目标类 t t t (目标攻击)之间的距离,或与预测与地面真实类(非目标攻击)之间的距离相反。
Figure 1: Overview of AdvGAN
对抗损失函数可以写为:
L
G
A
N
=
E
x
l
o
g
D
(
x
)
+
E
x
l
o
g
(
1
−
D
(
x
+
G
(
x
)
)
)
(1)
\mathcal L_{GAN}=\mathbb E_xlog\mathcal D(x)+\mathbb E_xlog(1-\mathcal D(x+\mathcal G(x))) \tag{1}
LGAN=ExlogD(x)+Exlog(1−D(x+G(x)))(1)
这里,判别器
D
\mathcal D
D 的目的是从源数据
x
x
x 中区分出扰动数据
x
+
G
(
x
)
x+\mathcal G(x)
x+G(x).注意,实际数据是从真实类中取样的,以便鼓励生成的实例与原始类中的数据接近。
在目标攻击中愚弄目标模型
f
f
f 的loss函数是:
L
a
d
v
f
=
E
x
l
f
(
x
+
G
(
x
)
,
t
)
(2)
\mathcal L^f_{adv}=\mathbb E_x \mathcal l_f(x+\mathcal G(x),t) \tag{2}
Ladvf=Exlf(x+G(x),t)(2)
这里
t
t
t是目标类别,
l
f
\mathcal l_f
lf 表示用于训练原始模型
f
f
f的损失函数(如交叉熵损失)。
L
a
d
v
f
\mathcal L^f_{adv}
Ladvf loss鼓励干扰图像被错误分类到目标
t
t
t中。在这里,我们也可以通过最大化预测与周围真实之间的距离来执无目标攻击,但是我们将在本文的其余部分重点关注目标攻击。
限制扰动的大小,这是以前工作中常见的做法,我们在
L
2
L_2
L2 范数上增加了一个软铰链损失:
L
h
i
n
g
e
=
E
x
m
a
x
(
0
,
∣
∣
G
(
x
)
∣
∣
x
−
c
)
(3)
\mathcal L_{hinge}=\mathbb E_xmax(0,||\mathcal G(x)||_x-c) \tag{3}
Lhinge=Exmax(0,∣∣G(x)∣∣x−c)(3)
这里
c
c
c 表示一个用户指定的约束。这同样可以稳固GAN的训练。最后,我们的全部目标可以表示为:
L
=
L
a
d
v
f
+
α
L
G
A
N
+
β
L
h
i
n
g
e
(4)
\mathcal L=\mathcal L^f_{adv}+\alpha\mathcal L_{GAN}+\beta\mathcal L_{hinge} \tag{4}
L=Ladvf+αLGAN+βLhinge(4)
这里
α
,
β
\alpha , \beta
α,β 控制每个目标的重要关系。注意,这里的
L
G
A
N
L_{GAN}
LGAN用于鼓励受扰动的数据与原始数据
x
x
x相似,而
L
a
d
v
f
L^f_{ adv}
Ladvf用于生成对抗性示例,从而优化攻击成功率。我们通过求解最大最小博弈
a
r
g
m
i
n
G
m
a
x
D
L
arg min_G max_D \mathcal L
argminGmaxDL得到G和D。一旦
G
G
G被训练数据和目标模型进行训练,它就可以对任何输入实例产生扰动,执行半白盒攻击。
3.3黑盒攻击与对抗网络动态蒸馏
对于黑盒攻击,我们假设攻击者事先不知道训练数据或模型本身。在第4节的实验中,我们假设攻击者对训练数据或模型没有先验知识,所以我们随机抽取与黑箱模型训练数据不相交的数据进行蒸馏。为了实现黑盒攻击,我们首先在黑盒模型
b
b
b的输出基础上构建一个蒸馏网络
f
f
f [Hinton et al., 2015]。一旦我们得到蒸馏网络
f
f
f,我们就会执行与白盒设置相同的攻击策略(见式(4))。这里,我们最小化以下网络蒸馏目标:
a
r
g
min
f
E
x
H
(
f
(
x
)
,
b
(
x
)
)
(5)
arg \min_f\mathbb E_x \mathcal H(f(x),b(x)) \tag{5}
argfminExH(f(x),b(x))(5)
其中
f
(
x
)
f(x)
f(x)和
b
(
x
)
b(x)
b(x)分别表示蒸馏模型和黑盒模型对给定训练图像
x
x
x的输出,
H
\mathcal H
H表示常用的交叉熵损失。通过对所有训练图像的目标进行优化,可以得到一个非常接近黑盒模型
b
b
b的模型
f
f
f,然后对蒸馏网络进行攻击。
注意,不像训练判别器 D \mathcal D D 那样,我们只使用来自原始类的真实数据来鼓励生成的实例接近其原始类,这里我们使用所有类的数据来训练提取的模型。
动态蒸馏
仅训练包含所有原始训练数据的蒸馏模型是不够的,因为我们不清楚黑盒和蒸馏模型对生成的对抗样本的执行情况有多接近,而这些示例在以前的训练集中从未出现过。在这里,我们提出了一种可选的最小化方法来动态地进行查询并联合训练蒸馏模型 f f f和生成器 G G G。我们在每个迭代中执行以下两个步骤。在迭代期间 i i i:
-
更新 G i \mathcal G_i Gi 给出一个固定的网络 f i − 1 f_{i-1} fi−1:
我们遵循白盒设置(见方程4)并且基于先前 f i − 1 f_{i-1} fi−1蒸馏模型训练生成器和判别器。我们初始化权重 G i \mathcal G_i Gi作为 G i − 1 \mathcal G_{i-1} Gi−1.
G i , d i = a r g min G max D L a d v f i − 1 + α L G A N + β L h i n g e \mathcal G_i,d_i=arg\min_{\mathcal G}\max_{\mathcal D}\mathcal L^{f_{i-1}}_{adv}+\alpha\mathcal L_{GAN}+\beta\mathcal L_{hinge} Gi,di=argGminDmaxLadvfi−1+αLGAN+βLhinge -
更新 f i f_i fi给出一个固定生成器 G i \mathcal G_i Gi:
首先,我们使用 f i − 1 f_{i-1} fi−1初始化 f i f_i fi 。然后,根据 G i \mathcal G_i Gi生成的对抗样本 x + G i ( x ) x + \mathcal G_i(x) x+Gi(x),根据针对黑盒模型生成的对抗样本的一组新的查询结果,以及原始的训练图像,对蒸馏模型 f i f_i fi进行更新。
f i = a r g m i n f E x H ( f ( x ) , b ( x ) ) + E x H ( f ( x + G i ( x ) ) , b ( x + G i ( x ) ) ) f_i=argmin_f\mathbb E_x\mathcal H(f(x),b(x))+\mathbb E_x\mathcal H(f(x+\mathcal G_i(x)),b(x+\mathcal G_i(x))) fi=argminfExH(f(x),b(x))+ExH(f(x+Gi(x)),b(x+Gi(x)))
我们使用原始图像 x x x和新生成的对抗性示例 x + s G i ( x ) x + sG_i(x) x+sGi(x)来更新 f f f。
在实验部分,我们比较了静态蒸馏方法和动态蒸馏方法的性能,并观察到同时更新G和f会产生更高的攻击性能。详见表2。
Table 1: Comparison with the state-of-the-art attack methods. Runtime is measured for generating 1,000 adversarial instances during test time. Opt. represents the optimization based method, and Trans. denotes black-box attacks based on transferability.
Table 2: Accuracy of different models on pristine data, and the attack success rate of adversarial examples generated against different models by AdvGAN on MNIST and CIFAR-10. p: pristine test data; w: semi-whitebox attack; b-D: black-box attack with dynamic distillation strategy; b-S: black-box attack with static distillation strategy.
4.实验结果
在本节中,我们首先评估AdvGAN在MNIST [LeCun andCortes,1998]和CIFAR-10 [Krizhevsky和Hinton,2009]上的半白盒和黑盒设置。我们还对ImageNetdataset进行了半白盒攻击[Deng et al 。,2009]。然后,我们应用AdvGAN生成不同目标模型的对等示例,并在最先进的防御下测试它们的攻击成功率,并表明与其他现有攻击策略相比,我们的方法可以实现更高的攻击成功率。我们生成针对不同攻击方法的所有对抗性示例,在基于 L ∞ L_\infty L∞约束的MNIST的0.3界限和CIFAR-10的8界限上进行公平比较。通常,如表1所示,Adv-GAN具有优于其他白盒和黑盒攻击的几个优点。例如,关于计算效率,AdvGAN执行速度比其他人快得多,甚至包括有效的FGSM,尽管AdvGAN需要额外的训练时间来训练生成器。所有这些策略都可以执行目标攻击,除了基于可转移性的攻击,尽管集合策略可以帮助改进。此外,FGSM和优化方法只能执行白盒攻击,而AdvGAN能够在半白盒设置中进行攻击。
实现细节:我们采用类似的生成器和判别器结构与图像到图像的翻译文献[Isola et al。,2017; 朱等人,2017]。 我们用Carlini和Wagner(2017b)中应用的损失作为我们的损失 L a d v f = m a x ( m a x i ≠ t f ( x A ) i − f ( x A ) t , k ) \mathcal L^f_{adv} = max(max_{i\neq t} f(x_A)_i-f(x_A)_t,k) Ladvf=max(maxi=tf(xA)i−f(xA)t,k),其中 t t t是目标类, f f f代表在半白盒设置中的目标网络和黑盒设置中的蒸馏模型。 我们为Opt和AdvGAN选择置信度 k = 0 k= 0 k=0。我们使用128的批量大小和0.001的学习率。 对于GAN训练,我们使用LSGAN [Mao et al。,2017]提出的最小二乘目标,因为它已被证明可以产生更好的训练结果。
实验中使用的模型:对于MNIST,我们为三个模型生成了对抗性的例子,其中模型A和模型B在Tramer等人(2017)中使用。模型C是Carlini和wagner (2017b)中使用的目标网络架构。CIFAR-10选择ResNet-32 和 Wide ResNet-34 [He et al., 2016;Zagoruyko and Komodakis, 2016]。具体来说,我们使用一个32层的ResNet实现在TensorFlow和wide ResNet派生自“w32-10wide”的变体。“我们在表2中展示了原始MNIST和CIFAR-10测试数据§的分类精度,以及AdvGAN在不同模型上生成的对抗实例的攻击成功率。
4.1.AdvGAN在半白盒攻击中的设置
我们使用不同的架构为MNIST和CIFAR-10评估AdvGAN。 我们首先应用AdvGAN对MNISTdataset上的不同模型进行半白盒攻击。 从表2中的半白盒攻击(AttackRate(w))的性能可以看出,AdvGAN能够生成对抗实例,以高攻击成功率攻击所有模型。
我们还从相同的原始实例 x x x生成对抗样本,针对其他不同的类,如图2所示。在MNIST(a) - (c)的半白盒设置中,我们可以看到生成的不同模型的对抗性示例似乎接近于 地面真相/原始图像(位于矩阵的对角线上)。
此外,我们根据MNIST上的不同损失函数分析攻击成功率。 在相同的有界扰动(0.3)下,如果用 L = ∣ ∣ G ( x ) ∣ ∣ 2 + L a d v f \mathcal L = ||G(x)||_2 + \mathcal L^f_{adv} L=∣∣G(x)∣∣2+Ladvf代替(4)中的全损失函数,这与Baluja和Fischer中使用的目标相似,则攻击成功率变为86.2%。 如果用 L = L h i n g e + L a d v f \mathcal L =\mathcal L_{hinge} + \mathcal L^f_{adv} L=Lhinge+Ladvf代替损失函数,则攻击成功率为91.1%,与AdvGAN相比,为98.3%。
同样,在CIFAR-10上,我们对基于AdvGAN的ResNet和Wide ResNet应用了相同的半白盒攻击,图3 (a)显示了一些对抗性的例子,它们在感知上是真实的.
我们展示了针对不同其他类的相同原始实例的对抗性示例。很明显,对于不同的目标,与对角线上的原始实例相比,对抗性实例保持了相似的视觉质量。
4.2.AdvGAN在黑盒攻击中的设置
我们这里的黑箱袭击是基于动态蒸馏策略。我们构造了一个局部模型来提炼模型 f f f,我们选择模型C的体系结构作为我们的本地模型。注意,我们随机选择与AdvGAN的训练数据不相交的实例子集来训练本地模型;也就是说,我们假设对手没有任何关于训练数据或模型本身的先验知识。通过动态蒸馏策略,AdvGAN产生的对抗性实例达到攻击成功率,MNIST高于90%,CIFAR-10高达80%,静态蒸馏方法为30%和10%,如表2所示。
我们应用AdvGAN为针对MNIST上不同类的相同实例生成对抗性示例,并随机选择一些实例,如图2(d) - (f)所示。通过与对角线上的原始实例进行比较,我们可以看出这些对抗实例可以作为原始数字实现高感知质量。具体而言,原始数字在某种程度上被对抗性扰动突出显示,这意味着一种感知上逼真的操纵。图3(b)显示了在CIFAR-10上生成的对抗性实例的类似结果。与对角线上的原始实例相比,这些对抗实例看起来更逼真。
4.3.防御下的攻击效能
面对不同类型的攻击策略,已经提供了各种防御措施。其中,不同类型的对抗训练方法是最有效的。其他类别的防御,例如那些预先处理输入的防御大多被适应性攻击击败[He et al。,2017; Carlini和Wagner,2017a]。 Goodfellow等人。首先提出对抗性训练作为提高DNN稳健性的有效方法,Tramèr等人。将其扩展到合奏对抗性学习。 Ma˛dry等。还提出了基于明确定义的对手的反对对抗例子的鲁棒网络。鉴于AdvGAN努力从潜在的真实数据分布中生成对抗实例,与其他攻击策略相比,它基本上可以产生更逼真的对抗性对抗性扰动。因此,AdvGAN可能有更高的机会产生在不同防御方法下具有弹性的对抗性示例。在本节中,我们定量评估AdvGAN与其他攻击策略相比的此属性。
威胁模型:如文献所示,当攻击时,大多数目前的防御策略并不健全[Carlini and Wagner,2017b; 他等,2017]。 在这里,我们考虑一个较弱的威胁模型,其中对手不知道防御并直接尝试攻击原始学习模型,这也是Carlini和Wagner分析的第一个威胁模型。 在这种情况下,如果攻击者仍然可以成功攻击模型,则意味着攻击策略的稳健性。 在此设置下,我们首先应用不同的攻击方法,根据原始模型生成对抗性示例,而不会发现任何防御。 然后我们应用不同的防御来直接防御这些对抗性实体。
半白盒攻击:首先,我们考虑半白盒攻击设置,其中对手有白盒子访问模型架构以及参数。在这里,我们分别用模型A,B和C替换图1中的f。结果,对抗 将针对不同的模型生成示例。 我们使用三种对抗性训练来训练每种模型的不同模型:标准FGSM对抗训练(Adv。)[Goodfellow etal。,2015],合奏对抗训练(Ens。)[Tramèr等,2017],5和迭代训练(Iter) .Ad。)[Ma˛dry等,2017]。 我们评估这些攻击对这些防御模型的有效性。 在表3中,我们显示AdvGANon不同模型生成的对抗性示例的攻击成功率高于FGSM和Opt。[Carlini和Wagner,2017b]。
黑盒攻击:对于AdvGAN,我们使用模型B作为黑盒模型并训练蒸馏模型对模型B执行黑盒攻击并报告表4中的攻击成功率。对于黑盒攻击比较目的,基于可转移性的攻击适用于FGSM和选项。 我们使用FGSM和Opt。 在MNIST上攻击模型A,我们使用这些对抗实例来测试模型B并报告相应的分类准确性。 我们可以看到,与其他攻击方法相比,黑盒AdvGAN生成的对抗性示例始终能够获得更高的攻击成功率。
对于CIFAR-10,我们使用ResNet作为黑盒模型,并训练蒸馏模型对ResNet执行黑盒攻击。 为了评估优化方法和FGSM的黑盒攻击,我们使用攻击Wide ResNet生成的对抗性示例,并在ResNet上测试它们以报告这两种方法的黑盒攻击结果。
此外,我们将AdvGAN应用于MNIST挑战。 在表5中显示的所有标准攻击中,AdvGAN在白盒设置中达到88.93%。
在报告的黑箱攻击中,AdvGAN的准确率达到92.76%,优于提交给挑战的所有其他最先进的攻击策略。
4.4.高分辨率对抗性的例子
为了评估AdvGAN生成高分辨率对抗示例的能力,我们攻击Inception_v3并对攻击成功率和生成的对等示例的感知真实性进行定量。
实验设置:在以下实验中,我们从NIPS 2017对抗性攻击竞赛的DEV数据集中选择100个良性图像[Kurakin等,2018]。 该竞赛提供了与ImageNet兼容的数据集。 我们生成对抗性示例(299 299像素),每个示例都针对一个随机不正确的类,其中$L_\infty $的范围在0.01以内,用于Inception_v3。 攻击成功率为100%。
在图4中,我们展示了由AdvGAN生成的一些随机选择的原始和对抗性示例的示例。
人类的感知研究:我们使用亚马逊机械土耳其人(AMT)的用户研究验证了Adv-GAN对抗性示例的真实性。我们使用100对原始图像和对抗性示例(如上所述生成)并要求工作人员选择一对中的哪一个图像 更具视觉冲击力。
我们的研究遵循Isola等人的协议,其中工人被显示一对图像2秒,然后工人有无限的时间来决定。 我们将每个工人限制为最多20个这样的任务。 我们从AMT的50名工人那里收集了500个选择,每对图像约5个。 在 49.4 % ± 1.96 % 49.4%\pm1.96% 49.4%±1.96%的任务中,Adv-GAN示例被选择为比原始图像更逼真(随机猜测将导致约50%)。 这一结果表明,这些高分辨率的AdvGAN对抗性例子与良性图像一样逼真。
我们的研究遵循了伊索拉等人的一项方案,即向工作人员展示两幅图像,持续2秒钟,,然后工人有无限的时间来决定。 我们将每个工人限制为最多20个这样的任务。 我们从AMT的50名工人那里收集了500个选择,每对图像约5个。 在 49.4 % ± 1.96 % 49.4%\pm1.96% 49.4%±1.96%的任务中,Adv-GAN示例被选择为比原始图像更逼真(随机猜测将导致约50%)。 这一结果表明,这些高分辨率的AdvGAN对抗性例子与良性图像一样逼真。
5.结论
在本文中,我们提出AdvGAN使用生成对抗网络(GAN)生成对抗性示例。在我们的 AdvGAN框架中,一旦经过训练,前馈发生器可以有效地产生对抗扰动。 它还可以执行具有高攻击成功率的半白盒和黑盒攻击。 此外,当我们应用Adv-GAN在不知道现有防御的情况下在不同模型上生成对抗实例时,生成的对抗性示例可以保持高感知质量并且攻击具有比生成的示例更高的攻击成功率的最先进的防御 通过竞争方法。 该属性使AdvGAN成为改进对抗训练防御方法的有希望的候选者。