[论文翻译&理解]规模对抗训练的有趣特性Intriging Properties of Adversarial Traning at scale

在这里插入图片描述

1.几个问题

1.1 基本信息

ICLR 2020

1.2 做了什么 & 创新性

提出了两点观察:

  1. 在对抗性网络中,干净的图像和敌对的图像来自两个不同的领域。
  2. 谓的“深层”网络对于对抗性学习的任务来说仍然很浅。
    并给出了可能的解决方案。

1.3 怎么做

通过改变干净图像和对抗图像的比例、对数逻辑配对等一系列策略,和一系列实验中总结出了上述两个观察。

在可能的解决方案中,采取了“为干净图像和对抗图像使用不同BN”以及“批处理无关的规范化层替换BN”两种方法。

2.数学部分 & 模型构建

2.1 摘要

对抗训练是对抗攻击的主要防御手段之一。在这篇论文中,我们首次在ImageNet上对大规模对抗训练的诊断元素进行了严格的研究,揭示了两个有趣的特性。

首先,我们研究规范化的作用。批处理规范化(BN)是在许多视觉任务上实现最先进性能的关键因素,但我们发现它可能会阻止网络在对抗性训练中获得强大的鲁棒性。一个出乎意料的观察结果是,对于使用BN训练的模型,简单地从训练数据中删除干净的图像就可以大大提高对抗性健壮性,即18.3%。我们将这种现象与以下假设联系起来:干净的图像和敌对的图像来自两个不同的领域。这两个领域的假设可以解释当使用干净和敌对图像的混合训练时BN的问题,因为估计这种混合分布的归一化统计是具有挑战性的。在这个双域假设的指导下,我们证明了分离混合分布进行归一化,即对干净和敌对图像应用单独的BNs进行统计估计,可以获得更强的鲁棒性。此外,我们发现,强制BNs在训练和测试中表现一致可以进一步增强健壮性。

其次,我们研究了网络容量的作用。我们发现我们所谓的“深层”网络对于对抗性学习的任务来说仍然很浅。与传统的分类任务不同的是,通过向“深层”网络添加更多的层(例如ResNet-152),精确性只会略有提高,对抗性训练对深层网络的要求更高,以获得更高的对抗鲁棒性。这种稳健性的提高,即使通过将网络容量推到前所未有的规模,即ResNet-638,也可以得到实质性和一致性的观察。

2.2 Intro

对抗性攻击(Szegedy et al.,2014)通过在输入数据中添加人类无法察觉的扰动,误导神经网络做出错误的预测。对抗性训练(Goodfello等人,2015)被证明是一种有效的防御此类攻击的方法,它在训练过程中根据动态生成的对抗图像训练神经网络。随后的工作通过降低梯度掩蔽(Tram`er et al.,2018)、强制logits配对(Kannan et al.,2018)、特征空间去噪(Xie et al.,2019b)等,进一步提高了对手训练模型的鲁棒性,这些工作主要集中在证明所提出策略的有效性,并将不一致的管道应用于对抗性训练,这使得揭示鲁棒模型训练的重要因素仍然是当前对抗性研究中的一个缺失。

在本文中,我们首次在统一的训练和测试框架下,在大规模ImageNet数据集上对不同的对抗性学习策略进行了严格的诊断(Russakovsky等人,2015)。我们发现了对抗性训练的两个有趣的特性,这对于具有更强鲁棒性的训练模型是必要的。首先,尽管批量标准化(BN)(Ioffe&Szegedy,2015)被认为是实现许多视觉任务最先进水平的关键组成部分,但它可能成为在对抗性训练环境中确保对强攻击的鲁棒性的主要障碍。通过使用不同的策略对此类网络进行反向训练,例如,施加逻辑对(Kannan et al.,2018),我们观察到一个意想不到的现象-从训练数据中移除干净图像是增强模型鲁棒性的最有效方法。我们将这一现象与以下假设联系起来:干净图像和敌对图像来自两个不同的领域。**这种双域假设可以解释当使用干净和敌对图像的混合训练时,BN的局限性,因为估计这种混合分布的标准化统计是具有挑战性的。**我们进一步证明,如果混合分布在BN处得到很好的分解,通过构造不同的小批量来估计归一化统计量,不去除干净图像的对抗训练也能获得很强的鲁棒性。,一组BN专用于对抗性图像,另一组BN专用于干净图像。避免标准化混合分布的另一种解决方案是简单地用批处理无关的标准化层替换所有的BN,例如,群标准化(group normalization)(Wu&He,2018),其中归一化统计信息独立地估计在每个图像上。这些事实表明,模型鲁棒性与对抗性训练中的规范化密切相关。此外,通过在训练和测试过程中加强BN的一致行为,可以观察到额外的性能增益。

第二,我们发现我们所谓的“深度”网络(如ResNet-152)对于对抗性学习的任务来说仍然是浅层的,并且简单的深入可以有效地提高模型的鲁棒性。实验表明,对于传统的图像分类任务,直接向“深层”网络添加更多层只会略微提高准确性。相比之下,即使将网络容量提升到前所未有的规模,即ResNet-638,也可以看到大量一致的健壮性改进。这一现象表明,更大的网络被鼓励进行对抗性学习,因为学习目标,即对抗性图像,是一个比干净图像更复杂的分布。

总之,本文揭示了对抗性训练的两个有趣的特性:(1)正确处理规范化对于获得具有强鲁棒性的模型至关重要;(2)对于对抗性学习任务,我们所谓的“深层”网络仍然很浅。我们希望这些研究结果能对今后理解对抗训练和提高对抗鲁棒性的研究有所裨益。

2.3 对抗性训练框架

由于之前的工作中采用了不一致的对抗性训练管道(Kannan等人,2018年;Xie等人,2019b),很难确定哪些元素对于获得稳健模型是重要的。为此,我们提供了一个统一的框架来训练和评估不同的模型,以便进行公平的比较。

在这里插入图片描述
训练参数。我们使用公开的对抗性训练管道1在ImageNet上训练所有具有不同策略的模型。我们选择ResNet-152(He et al.,2016)作为基线网络,并将投影梯度下降(PGD)(Madry et al.,2018)作为对抗性攻击者,在训练中生成对抗性示例。PGD攻击者的超参数为:每个像素的最大扰动=16,攻击步长α=1,攻击迭代次数N=30,在1000个ImageNet类别中随机选择目标类。我们用概率=0.2的干净对手初始化对抗图像,或者在允许的立方体内随机初始化概率=0.8的敌方图像。所有模型共训练110个周期,在第35、70和95个历元时,学习率降低了10倍。

评价。在性能评估方面,本文主要研究了对抗性鲁棒性(而不是干净图像精度)。具体而言,我们遵循Kannan等人(2018)和Xie等人(2019b)中的设置,其中目标PGD攻击者被选为白盒攻击者,以评估鲁棒性。目标类是随机统一选择的。我们约束每个像素的最大扰动=16,设置攻击步长α=1,并通过防御2000次攻击迭代(即PGD-2000)的PGD攻击来衡量鲁棒性。正如Kannan等人(2018)和Xie等人(2019b)所述,我们总是从允许 ε \varepsilon ε立方体内的一个随机点初始化对抗性扰动。

2.4 探讨对抗性训练中的规范化技术

2.4.1 关于对抗性训练中干净图像的影响

在这一部分中,我们首先阐述了对抗性训练的不同策略。对抗性训练可以追溯到Goodfello等人(2015年),他们将干净的图像和相应的对手对手混合到每个小批量中进行训练。我们选择此策略作为出发点,相应的损失函数为:

在这里插入图片描述
其中J(·)是损失函数,θ是网络参数,y是真实值,训练对 { x c l e a n , x a d v } \{x^{clean},x^{adv}\} {xcleanxadv}分别由干净图像和它们的对抗图像组成。参数α平衡了干净图像丢失和对抗图像丢失之间的相对重要性。根据Goodfello等人(2015),我们将α设为0.5。在我们的对抗训练框架下,该模型对PGD-2000攻击的准确率可达20.9%。除此基线外,我们还研究了最近提出的两种对抗性训练策略(Madry et al.,2018;Kannan et al.,2018)的有效性,结果如下。

在这里插入图片描述
干净图像的比率。与Goodfello等人(2015)中的规范形式不同,Madry等人(2018)将最小-最大公式应用于不使用干净图像的对抗性训练。我们注意到这种最小-最大类型的优化可以追溯到Wald(1945年)。因此,我们研究模型鲁棒性与用于训练的干净图像比率之间的关系。具体地说,对于每一个小批量训练,我们保持敌对图像不变,但是去除干净的对应图像20%、40%、60%、80%和100%。我们在图1中报告了结果。有趣的是,从训练数据中去除一部分干净图像可以显著提高模型的鲁棒性,并且完全从训练集中删除干净图像可以获得最强的鲁棒性,即对PGD-2000攻击的准确率达到39.2%,比基线模型高出18.3%。

对抗性对数配对。为了进行性能比较,我们还探讨了另一种训练策略,即对抗性logits配对(ALP)的有效性(Kannan等人,2018年)。与Goodfellow et al.(2015)中的规范形式相比,ALP施加了额外的损失,以鼓励来自干净图像和敌对对手的对数相似。如图2所示,我们重新实现的ALP相对于PGD-2000 attacker2获得了23.0%的准确率,比基线模型高出2.1%。与去除干净图像的策略相比,这种改进要小得多。

讨论。基于以上结果,我们得出结论:仅在对抗性图像上进行训练是增强模型鲁棒性的最有效策略。例如,通过防御PGD-2000攻击者,Goodfellow等人(2015)中的基线策略(称为100%adv+100%clean)获得了20.9%的准确率。添加丢失的logits配对(Kannan et al.,2018)(称为100%adv+100%clean,ALP)稍微提高了2.1%的性能,而完全删除干净图像(Madry et al.,2018;Xie et al.,2019b)(称为100%adv+0%clean)可将准确度提高18.3%。我们在图2中进一步绘制了这三种训练策略的综合评估曲线,方法是将PGD攻击迭代次数从10次变化到2000次。令人惊讶的是,只有100%adv+0%clean才能保证模型对强攻击的鲁棒性,即当PGD攻击者执行更多的攻击迭代时,性能变得渐近。如果允许PGD攻击者进行更多的攻击迭代,那么涉及到干净图像的训练策略可能会导致更差的鲁棒性。在下一节中,我们将研究如何使这些训练策略,即100%adv+100%clean和100%adv+100%clean,ALP来保证它们对强攻击的鲁棒性。

2.4.2 在Batch Normalization中的“魔鬼”

双域假说。与干净图像的特征地图相比,谢等(2019b)指出,特征对手的特征地图往往更嘈杂。同时,一些工作&Li,2017;Metzen et al.,2018;Feinman et al.,2017;Pang et al.,2018;Li et al.,2019)证明了构建分类器将敌对图像从干净图像中分离出来是可能的。这些研究表明干净图像和敌对图像来自两个不同的领域3。这两个领域的假设可以为意外的观察提供一个解释(见第4.1节):为什么简单地从训练数据中删除干净的图像就可以大大增强对抗的鲁棒性?
在这里插入图片描述
BN(Ioffe&Szegedy,2015)作为实现各种视觉任务最先进水平的关键元素,广泛应用于许多网络架构中,例如Inception(Szegedy等,2015)、ResNet(He et al.,2016)和DenseNet(Huang et al.,2017)。在不同的图像上估计BN的归一化统计量。然而,如果输入图像来自不同的域,因此网络无法学习这种混合分布的统一表示,则利用批处理统计是一项具有挑战性的任务。考虑到我们的双域假设,当使用干净图像和对抗图像进行训练时,BN的使用可能是导致图形对抗鲁棒性较弱的关键问题。

基于以上分析,一个直观的解决方案出现了:准确估计归一化统计数据应该能够使模型能够稳健地训练,即使在每个训练小批量中混合了干净图像和敌对图像。为此,我们探索了两种方法,即在标准化层分离混合分布,以验证这一论点:(1)为干净/敌对图像维护单独的BN;或(2)用批处理无关的规范化层替换BN

在这里插入图片描述
混合BN训练。当前的网络体系结构使用来自干净图像和敌对图像的混合特征来估计BN统计信息,这导致了弱模型鲁棒性,如图2所示。Xie等人(2019a)提出,适当地对对抗训练的规范化统计数据进行分解,可以有效地提高图像识别率。在这里,为了研究模型的稳健性,我们应用了混合BN(MBN)(Xie等人,2019a),它通过为干净图像和对抗图像构建不同的小批量来分离混合分布,以便进行精确的BN统计估计(如图4所示),即一组专门用于对抗性的BN(称为MBNadv),以及另一组专门用于干净图像的bn(称为MBNclean)。我们不会改变其他层的结构。我们用两种(以前不太健壮的)训练策略(即100%adv+100%clean和100%adv+100%clean,ALP)验证了这种新体系结构的有效性。

在这里插入图片描述
在推断的时候,一个图像是敌对的还是干净的是未知的。因此,我们通过分别应用MBNadv或MBNclean来衡量网络的性能。结果见表1。我们发现性能与BN的训练方式密切相关:当使用MBNclean时,训练后的网络获得的干净图像精度几乎与专门训练在干净图像上的整个网络相同;当使用MBNadv时,训练后的网络达到了几乎相同的通用性鲁棒性,与专门针对敌方图像训练的整个网络相同。其他的因素,比如ALP是否适用于训练,只会在表现上造成细微的差异。在图3中,我们进一步绘制了不同训练策略的鲁棒性评估曲线。与图2不同的是,我们观察到使用MBNadv的网络现在可以确保其对强攻击的鲁棒性,例如,当攻击迭代次数从500次增加到2000次时,鲁棒性是渐近的。

表1中的结果表明,BN统计量表征了不同的模型性能。为了更好地理解,我们在一个残差块中随机抽取20个通道,并在图5中绘制MBNclean和MBNadv的相应运行统计数据。我们观察到,干净的图像和敌对的图像诱导了显著不同的运行统计信息,尽管这些图像共享一组卷积滤波器用于特征提取。这一观察结果进一步支持:(1)干净图像和敌对图像来自两个不同的域;(2)当前的网络无法在这两个域上学习统一的表示。有趣的是,我们还发现,与干净图像相比,敌对图像会导致更大的运行均值和方差。这种现象也与敌对图像在特征空间产生噪声模式/离群值的观察结果一致(Xie等人,2019b)。

作为补充说明,这种MBN结构也被用作训练更好生成性对抗网络(GAN)的实用技巧(Goodfello等人,2014年)。Chintala 等人(2016)建议在训练鉴别器时只使用真实或生成的图像构造每个小批量,因为生成图像和真实图像在早期训练阶段属于不同的域。然而,与我们在训练后不同域上估计的BN统计量仍然不一致的情况不同,GAN的成功训练,即能够生成高质量的自然图像,通常会学习到真实图像和生成图像上统一的BN统计量集。

批量无关规范化层的训练。为了同样的目的,我们也可以训练具有批无关规范化层的网络,而不是应用MBN结构来分解混合分布,从而避免了利用批维数来计算统计。我们选择组标准化(GN)作为实验,因为GN在各种视觉任务上的表现与BN相当(Wu&He,2018)。具体地说,对于每个图像,GN将通道分成组并计算每个组中的规范化统计信息。通过用GNs代替所有的BN,混合训练策略100%adv+100%clean可以保证对强攻击的鲁棒性,即用GN训练的模型对PGD-500的准确率达到39.5%,攻击迭代次数增加到2000只会使性能下降0.5%(相对于PGD-2000,准确率为39.0%)。在对抗性训练中探索其他批量无关的规范化仍然是未来的工作。

例外情况。在某些情况下,直接使用BN训练的模型也可以确保它们对强攻击的鲁棒性,即使在对抗性训练中包含了干净的图像。我们的实验表明,将每个像素的最大摄动限制为一个较小的值,例如, ε \varepsilon ε=8,就是这些例外情况之一。Kannan et al.(2018)和Mosbach et al.(2018)也表明,使用干净图像进行对抗性训练可以确保对小数据集(即MNIST、CIFAR-10和Tiny ImageNet)的鲁棒性。直观地说,在这些简单得多的数据集上或在较小的扰动约束下生成对抗性图像会导致这两个域之间的间隙更小,从而使网络更容易学习干净和敌对图像的统一表示。然而,在本文中,我们坚持Kannan et al.(2018)和Xie et al.(2019b)中的标准协议,其中在ImageNet上评估对抗性鲁棒性,扰动约束 ε \varepsilon ε=16。

2.4.3再论BN的统计估计

BN的不一致行为。由于“批”的概念在推理时是不合法的,BN在训练和测试中的表现是不同的(Ioffe&Szegedy,2015):在训练过程中,对每个小批量计算均值和方差,称为批统计;在测试期间,没有进行实际的归一化-BN使用预先计算的均值和方差在训练集中(通常通过运行平均值)来规范化数据,称为运行统计。

对于传统的分类任务,批量统计通常在训练结束时收敛到运行统计,因此(实际上)使得这种不一致行为的影响可以忽略不计。然而,这种经验假设在对抗性训练的背景下可能不成立。我们用100%adv+0%clean策略对模型进行了统计匹配,在这种策略下,对强攻击的鲁棒性是安全的。我们在一个残差块中随机抽取20个通道,并绘制两个随机抽样的小批次上计算的批次统计信息,以及预先计算的运行统计数据。在图6中,有趣的是,我们观察到批处理平均值几乎等同于运行平均值,而在某些通道上,批处理方差尚未收敛到运行方差。考虑到这一事实,我们接着研究这种不一致行为是否会影响对抗训练中的模型鲁棒性。
在这里插入图片描述

启发式方法。我们没有开发一种新的训练策略,使批量统计在训练结束时趋于运行统计,而是探索了一种更具启发性的解决方案:在过去10个时期内,将预先计算的运行统计应用于模型训练。我们在表2中报告了性能比较。通过使BNs在训练和测试中表现出一致性,该方法可以通过训练策略100%adv+0%clean进一步提高模型鲁棒性3.0%。我们还成功地验证了该方法在其他两种稳健训练策略上的通用性。更具体地说,在MBNadv、100%adv+100%clean和MBNadv、100%adv+100%clean、ALP的训练策略下,模型的鲁棒性分别提高了1.6%和2.8%。这些结果表明,模型的稳健性可以受益于BN在训练和测试中的一致性行为。此外,我们注意到这种方法不会产生任何额外的培训预算。

2.4.4 超越对抗性稳健性

论反向训练卷积滤波器的重要性。在第4.2节中,我们研究了混合分布被分离以进行归一化的模型的性能-通过应用MBNclean或MBNadv,训练的模型在干净图像或敌对图像上都能获得很好的性能。这一结果表明,干净图像和敌对图像共享相同的卷积滤波器来有效地提取特征。我们进一步探讨了仅在对抗性图像上学习的过滤器是否能够有效地提取干净图像上的特征,反之亦然。我们首先采用100%adv+0%clean策略训练模型,然后在几个时期内仅使用干净图像对BNs进行微调。有趣的是,我们发现在干净图像上的准确率可以从62.3%显著提高到73%,这只比标准训练设置差5.9%,即78.9%。这些结果表明,**仅在对抗性图像上学习的卷积滤波器也可以有效地应用于干净图像。**然而,我们发现相反的方向不起作用-在干净图像上学习的卷积滤波器无法在对抗性图像上稳健地提取特征(例如,在使用敌方图像对BNs进行微调后,相对于PGD-2000,准确率为0%)。这一现象说明了反向训练卷积滤波器的重要性,因为这样学习的滤波器也可以有效地从干净图像中提取特征。这里的研究结果也与Ilyas等人(2019年)关于鲁棒/非鲁棒特征的讨论有关。有兴趣的读者可以参考这本同时出版的作品,了解更多细节。

对抗训练的局限性。我们注意到,我们的对抗训练模型在干净的准确性和鲁棒性之间表现出一种性能折衷-实现强大的模型鲁棒性的训练策略通常导致在干净图像上的准确度相对较低。例如 100%adv+0%clean,MBNadv,100%adv+100%clean和MBNadv,100%adv+100%clean,ALP只报告了干净图像的62.3%、64.4%和65.9%。通过用GNs代替BNs,100%adv+100%clean可以获得更好的干净图像精度,即67.5%,并且保持了很强的鲁棒性。我们注意到,在之前的工作中也观察到了这种折衷(Tsipras等人,2018年)。另外,Balaji等人(2019年)指出,有可能使经过对抗训练的模型在干净的精确度和鲁棒性之间表现出更好的折衷。这一方向值得今后关注。

在这里插入图片描述

2.5 对抗训练更深入

如第4.2节所述,当前的网络无法学习干净和敌对图像的统一表示。这可能表明,我们使用的“深层”网络,即ResNet-152,仍然不适合复杂的对抗图像分布,这促使我们将更大的网络用于对抗训练。我们简单地通过更深入地,即添加更多剩余块来实例化更大网络的概念。对于传统的图像分类任务,向“深层”网络添加更多层所带来的好处正在减少,例如,图7中的蓝色曲线表明,一旦网络深度超过ResNet-200,干净图像精度的提高就趋于饱和

为了更好地说明这一点,我们专门在对抗性图像上训练更深入的模型,并观察到可能的不拟合现象,如图7所示。特别是,我们应用4.3节中的启发式策略来减轻BN可能带来的影响。我们观察到,对抗性学习任务在更深的网络上表现出强烈的“渴望”,以获得更强的鲁棒性。例如,将深度从ResNet-152增加到ResNet-338,显著提高了2.4%的模型鲁棒性,而“干净”训练设置(称为0%adv+100%clean)的相应改进仅为0.5%。此外,即使将网络容量推到前所未有的规模,即ResNet-638,这一观察结果仍然成立。这些结果表明,我们所谓的深层网络(如ResNet-152)对于对抗性学习的任务仍然很浅,应该使用更大的网络来拟合这种复杂的分布。除了我们在网络深度方面的研究结果,Madry等人(2018)还表明,增加网络宽度也显著提高了网络鲁棒性。这些经验观察也证实了最近的理论研究(Nakkiran,2019;Gao等人,2019),该研究认为,强大的对抗性学习需要更复杂的分类器。

除了对抗性稳健性外,我们还观察到通过增加网络深度(如表7所示)在干净图像精度方面的一致性能增益。我们最深的网络ResNet-638在干净图像上的准确率达到68.7%,比相对较浅的ResNet-152高出6.1%。

2.6 结论

在本文中,我们揭示了大规模对抗训练的两个有趣的特性:(1)在像ImageNet这样的大规模数据集上,正确地进行规范化是训练鲁棒模型的必要条件;(2)我们所谓的“深层”网络对于对抗性学习的任务来说仍然是肤浅的。我们的发现也可能与我们的两个领域假设有内在联系——干净的图像和敌对的图像来自不同的分布。我们希望这些发现能促进研究人员更好地理解对抗训练,以及进一步提高对抗性的鲁棒性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值