adversarial training-FreeAT_CSDN

最新推荐文章于 2024-06-09 09:50:39 发布

tangagui

最新推荐文章于 2024-06-09 09:50:39 发布

阅读量2.7k

点赞数 3

分类专栏：对抗训练文章标签：神经网络算法

本文链接：https://blog.csdn.net/qq_32925101/article/details/111320619

版权

对抗训练专栏收录该内容

3 篇文章 1 订阅

订阅专栏

Adversarial Training for Free

adversarial training for free, NeurIPS 2019

Introduction

首先是鲁棒性的定义：A robust classifier is one that correctly labels adversarially perturbed images.
其次是实现鲁棒性的方法：
- 检测并剔除对抗样本（detecting and rejecting Adv. Examp.）
然后是对抗训练的问题，
- 首先，有工作表明对抗训练是目前为止仍然能有效防御住对抗攻击的少数方法之一；
- 其次，对抗训练是一个非常耗时的过程，体现在两方面：1. 更新网络模型参数；2. 在每个SGD迭代步内生成对抗样本的过程。（与传统的模型训练过程相比较，计算量取决于用于生成对抗样本时梯度的计算步（迭代步），例如FGSM和PGD的区别）。
再然后是用于加速对抗训练的方法：
- 使用参数化的生成网络来代替对抗训练过程中的扰动生成。但是此方法不适用复杂数据集问题（例如ImageNet），另外此方法很难生成覆盖整个图片空间的具有高度表达能力的GANs；
- 另一个比较流行的方法是使用标签平滑（label smoothing）、逻辑压缩（logit squeezing）、雅可比正则化（Jacobian regularization）对训练的loss进行正则化。但是这些方法同样没有应用到大规模问题中（ImageNet），同时，这些方法可以结合对抗训练一起使用。
近期，“认证防御”（certified defenses）发展的比较迅猛。这些方法一般用于小网络、低分辨率数据集，并且扰动也较小的情况。(small networks, low-res datasets, and relatively small perturbation budgets)
- 有随机平滑的方法；
- …

Contributions

提出了一种快速对抗训练算法来训练得到鲁棒模型，而且在训练花销和自然训练接近情况下（比标准对抗训练快3-30倍），能得到和标准训练相近（甚至更好）的鲁棒性效果；
该方法的关键是在一个迭代步内（backward-propagation）同时更新模型的参数和图片的扰动；
此外，本文的方法因为效率较高，因此可用于训练ImageNet模型，也是第一次用在ImageNet数据集上，在non-targetd PGD攻击下可取得40%的鲁棒性效果。

3. Adversarial Training

对抗训练是将训练集用相应地对抗训练替代并直接训练模型，模型的鲁棒效果取决于使用的对抗样本的强度；
基于快速非迭代式的攻击方法（例如FGSM）对抗训练得到的模型只对非迭代式攻击方法有效，对攻击较强的攻击方法（迭代式攻击）无效。

本文基于Madry提出的鞍点问题求解，该方法已经从理论和经验上都得到了验证；
该方法分为内外两层（inner-outer loop），其中内层基于模型对输入的梯度信息生成对抗样本，计算量和外层更新模型参数相当；
与自然训练相比，自然训练没有内层对输入数据求梯度过程，因此最终（K-PGD）对抗训练的计算量是自然训练的K+1倍。

Motivations

K-PGD algorithm

对抗训练是目前用于提高模型鲁棒性（resistant to attacks）、研究神经网络可解释性的重要方法；
然后，对抗训练是一个很耗时的过程（time-consuming），需要加速。

4 “Free” adversarial training

Free AT-m

**简而言之：**就是同步更新扰动和模型的参数。如上图所示，在使用上升法计算扰动同时使用下降法计算模型的梯度信息。

本文与之前训练不一样的地方体现在：

为了使得总的训练时间和常规网络训练时间相同（相近），将总epoch除以m；
在内层循环的时候，虽然是模型参数和扰动同时更新，也正因为如此得到的对抗样本也是攻击型较强的样本，因此训练效果较好（对抗训练的效果一定程度上取决于使用对抗样本的强度）；
关于扰动，上一个mini-batch生成的扰动会作为下一个mini-batch的warm-start。

**需要特别注意：这种情况下的训练数据集都是对抗样本，没有干净样本！！！**具体可参考PGD paperTowards Deep Learning Models Resistant to Adversarial Attacks.

The effect of mini-batch replay on natural training

问题的提出：

首先是，随着模型的鲁棒性提高，但是仍然希望模型对自然样本的表现不能太差，即随着算法中m的增大，模型的泛化性可能会变差；
问题：那么m是如何影响泛化性的？

训练的cost和之前的对抗训练是差不多的；
使用不同的m进行训练，然后使用不同的K-ierationsPGD方法和CW方法进行攻击；
红框中的数据可表示泛化性，随着m的增加，模型泛化性逐渐变差；但是鲁棒性并不是单调的（这样对m的设置就有要求）；
在 $\ge m >2$ 情况下和7-PGD取得的精度差不多，但是时间上却大大少于它。

可以看出，不管是在自然图片上还是对抗图片上，free-training的方法精度都超过了K-PGD adversarial training;
free-AT与K-PGD AT在增加迭代步上的规律是一样的，即增大m或K模型的鲁棒性会增加，但是泛化性会变差；（但是对于Free AT而言，增大m并不会增加时间成本）

5 Robust models on CIFAR-10 and 100

使用PGD对抗训练得到模型的特性

对抗训练得到的模型的梯度更具有解释性；
使得landscape更加平坦和光滑。

6. Does “free” training behave like standard adversarial training?

即根据之前的研究分析，使用PGD作为对抗训练的时候，模型表现出来两种特性：

模型梯度更具有可解释性；
模型的loss surface更加的平坦。

本节分析free AT对抗训练得到的模型是否也具有这样的特性。

Generative behavior for largely perturbed examples

有研究表明：强化分类器的梯度信息更具有可解释性。即从PGD对抗训练得到的模型生成的对抗样本往往看起来和误分类的类别会很像。

第二、三列是根据对抗训练得到的模型基于原始图片生成的对抗样本；（7-PGD attack和8-Free AT）
对抗生成的图片看起来和他们分类得到的图片“很像”，Free AT训练模型得到的对抗样本更具有生成特性，即看起来集成了目标类别；（万一真就改变了labels呢？）即鲁棒的分类器似乎可以一定程度上做一些之前只有生成模型才能做到的事；
鲁棒模型的梯度更具有解释性，更能代表特征。

Smooth and flattened loss surface

在防御方法中，有一类就是通过隐藏loss的gradients的方法，这样使得基于gradients的攻击方法失效（但是这种方法不怎么被认可）。
对抗训练的另一个特征就是对使得loss的landscape更加平坦和光滑，及对于对抗训练而言，并不是隐藏梯度或使得landscape的梯度很乱。

7. Robust ImageNet classifiers

本文的算法针对非目标攻击提出，有研究表明非目标攻击比目标攻击更加重要，且较目标攻击更具挑战性，基于此原因，一般选择较小的 $\epsilon$ 。

为什么无目标攻击比目标攻击更具挑战性？

为什么无目标攻击就要选择较小的 $\epsilon$ ？

是因为无目标攻击能提供的特征更少？

在ImageNet实验中，step-size=1(1./255)。

最大扰动量 $\epsilon = 2./255$ ；
自然训练得到的模型易受PGD的攻击（第一行）：
Free AT训练得到的鲁棒模型相对PGD-attack具有一定的鲁棒性；
通过比较PGD-50和PGD-100，一定程度后再增加PGD中的迭代步并不会再提高攻击成功率（同一行）。（因为这种实验规律性，因此对于更多PGD迭代步的攻击不再实验）