论文阅读笔记1：Threat of Adversarial Attacks on Deep Learningin Computer Vision: A Survey

最新推荐文章于 2023-08-09 03:47:35 发布

luckyy__

最新推荐文章于 2023-08-09 03:47:35 发布

阅读量1k

点赞数 13

文章标签：论文阅读笔记深度学习 ai 安全网络攻击模型

本文链接：https://blog.csdn.net/m0_69331164/article/details/131811907

版权

前言：本人是一个科研新人，只是个本科生，刚刚开始看综述，有些没太看懂，有上网查了一些，所以有些不是论文上写的东西，很多内容理解可能也不到位，希望大家轻喷，可以提出意见让我学习一下就更好啦。

尽管深度神经网络在解决复杂问题方面取得了惊人的成功(往往超出人类的能力)，但最近的研究表明，它们容易受到对抗攻击的影响，这种攻击的形式是对输入的微妙扰动，从而导致模型预测不正确的输出。

A. MODIFIED TRAINING/INPUT 修改训练过程/ 输入数据

B. MODIFYING THE NETWORK 修改网络

C. NETWORK ADD-ONS 使用附加网络

六、研究方向展望

一、相关术语的定义

Adversarial example/image:对抗样本/图像是一个有意被扰乱的干净图像的修改版本，它通过向图片中加入噪声来欺骗机器学习技术，如深度神经网络。
Adversarial perturbation: 对抗扰动指的是添加到干净图片中以生成对抗样本的噪声，干净样本+对抗扰动（噪声）->对抗样本。
Adversarial training: 除干净图像之外，还利用对抗样本来训练机器学习模型。
Adversary：对抗样本产生者，有时对抗样本也被称为adversary。
black-box attacks：攻击者对攻击的模型的内部结构，训练参数，防御方法（如果加入了防御手段的话）等等一无所知，只能通过输入输出与模型进行交互。
white-box attacks：白盒攻击，知道模型的全部信息。
Detector：检测器是一种(仅)检测图像是否为对抗样本的机制。
Fooling ratio/rate:欺骗率指的是图片扰动对模型正确预测的结果所带来的改变的比率，即图像被干扰后，预测标签被改变（模型被骗）的百分比。
one-shot/one-step methods：one-shot/one-step的方法指的是通过一步计算（噪声）来生成对抗扰动。与之相反的是利用迭代的方法多次执行相同的计算以获得单个扰动（如PGD），但最后的计算开销通常比较大。
Quasi-imperceptible：准不可察觉的扰动会非常轻微地损害图像，人眼很难辨别出来。
Rectifier：矫正者修改一个对抗样本，以将目标模型的预测结果恢复为对原先的未经扰动的样本的预测。
Targeted attacks：有目标攻击中，欺骗模型使模型预测为特定标签。相对于un-targeted attacks，没有特定标签，只求模型预测错误
threat model：威胁模型指的是一种方法所考虑的潜在攻击类型，例如黑盒攻击。
transferability：可迁移性指的是一个对抗样本具有可转移能力，即对于用于生成对抗样本的模型以外的其他模型，对抗样本也能保持有效的能力。
universal perturbation：通用扰动能够以高概率在"任意"图像上欺骗给定的模型。

二、对抗攻击

A.图像分类任务中的对抗攻击

Box-constrained L-BFGS

Szegedy等人首次证明了可以通过对图像添加细微的人类察觉不到的扰动误导神经网络做出错误分类。为了尝试求解该扰动，提出了下面的方程式：

$\min_{\rho }\left \| \rho \right \|_{2} s.t.C(I_{c}+\rho)=l ;I_{c}+\rho\in [0,1]^{m}$ （1）

$I_c$	表示一个向量化的干净图像	$l$	扰动后的图像标签，不同于原始标签
$\rho$	用来欺骗神经网络的轻微的扰动	C（）	神经网络分类器

求解目标是在输入的约束空间中找到一个不可察觉的最小扰动,使得扰动后的图像标签不同于原始标签。

直接解这个问题不容易，因此作者转换了一种思路，从损失函数的角度找最优的ρ:

$\min_{\rho }c\left |\rho \right |+L\left ( I_{c} +\rho,l\right )s.t.C(I_{c}+\rho)=l ;I_{c}+\rho\in [0,1]^{m}$ （2）

一方面我们希望ρ的某种范式越小越好，另一方面我们希望损失越小越好，因为这样表明Ic+ρ分类错误的概率越大。所以我们的目标是最小化上述公式，这就是Box-constrained L-BFGS。

如上图所示，在加入了人类视觉无法察觉的扰动之后，让网络做出了错误的分类。Szegedy等人发现为一个网络计算出的扰动，对多个网络都可以产生效果。

Fast Gradient Sign Method 快速梯度符号法(FGSM)

通过对抗训练可以提高深度神经网络的鲁棒性，从而提升对对抗样本的防御能力。

FGSM是一种能为给定图片快速产生对抗样本，用来做对抗训练的方法：

$\rho =\epsilon sign(\bigtriangledown \jmath (\theta ,I_{c},l))$ (3)

$\bigtriangledown \jmath ( ,,)$	计算损失函数的梯度	$\theta$	模型参数
$sign()$	符号函数	$\epsilon$	小标量值，限制扰动范数

sign(x)在x大于0的时候是1，小于0的时候是-1，等于0的时候是0。解该问题的模型叫做FGSM。

FGSM是典型的一步攻击法，它沿着对抗损失函数的梯度方向（即符号）执行一步更新，以增加最陡峭方向上的损失。

FGSM是利用深度网络中的高维空间的线性来生成对抗干扰的，而这种模型在当时通常被认为是高度非线性的。

FGSM 的一种改进：‘one-step target class’：

FGSM是一种无目标攻击方法，通过降低J(θ, x, y′)的梯度（其中y′ 表示目标类别），可以将FGSM轻松地扩展为目标攻击算法。

与前面式子的区别：用目标类别代替对抗扰动中的类别变量，再将原始图像减去该扰动，原始图像就变成了对抗样本，并能输出目标类别。

另一种改进：‘Fast Gradient L2’ method：

用L2 范数来进行归一化

以上方法都都被看作是"一步法"或"一枪法"。

Basic & Least-Likely-Class Iterative Methods基本和最小似然类迭代法

BIM方法通过一个迭代优化器迭代优化多次来提高FGSM的性能。

BIM 以较小的步长执行FGSM ，并将更新后的对抗样本裁剪到有效范围内。其每一步的迭代公式如下：

$I_{\rho }^{i}$

第i次迭代的干扰图像

$Clip_{\epsilon }$

表示在 $\epsilon$ 处截取图像的像素值

α决定步长(正常情况下, α = 1)。BIM算法从 $I_{\rho }^{0}=I_{c}$ 处开始迭代，PGD是BIM的一个变体，初始化有一个随机的扰动，并不是从0开始。

与FGSM扩展到‘one-step target class’相似，也可以将BIM扩展到’Iterative Least-likely Method’ (ILCM)。ILCM方法生成的对抗样本已经被证明严重影响了现代深度架构Inceptionv3的分类精度，即使对于非常小的值，例如 $\epsilon$ < 16。

Jacobian-based Saliency Map Attack基于雅可比矩阵的显著图攻击)(JSMA)

JSMA的目的是产生人眼难以识别的对抗样本。通常通过约束 $l_{\infty }$ 或 $l_{2}$ 范数来产生人眼难以识别的对抗样本。但JSMA是通过约束 $l_{0 }$ 范数（目的是减少被修改像素的数目）

$l_{0 }$ 范数为向量中不为0的个数

原理：根据输出梯度的显著性图，每次修改一个像素

停止条件：到达最大修改像素数量，或者已经成功愚弄模型

One Pixel Attack单像素攻击

对抗攻击的一种极端情况，只改变一个像素点的对抗样本。

使用差异进化Differential Evolution 理论，对于一张干净图像，先创建400个向量，每个向量包含xy坐标，RGB值。随机改变向量值，创建子代，在下一轮与父代竞争。用网络的概率标签作为竞争标准。最终幸存的子代作为该图像选择的像素。

优点是，不需要知道模型本身的参数值、梯度等信息，唯一需要知道的就是目标分类器对样本的预测概率。

通过改变图片中的一个像素点，导致网络分类错误。即使采用如此简单的进化策略，Su等人也能够成功地愚弄深层网络。

Carlini and Wagner Attacks (C&W)

C&W是一组基于优化的对抗攻击，其优化目标如下：

式中，δ是对抗扰动；D(,)表示L0、L2或L∞距离度量；f(x+δ)是自定义的对抗损失

最小化D(,)保证了生成样本与原始干净样本尽量的相似,最小化f(x+δ)保证了生成样本确实能成功攻击模型。

它将x+δ映射到了区间[0，1]，目的就是无论参数如何变，经过映射变换后，对抗样本x+δ都不会超出像素点的范围。

C&W是一种可以对抗防御蒸馏的方法。该算法生成的对抗扰动可以从非蒸馏网络生成的对抗样本迁移到蒸馏的网络上，从而实现黑箱攻击。

受C&W启发，有学者提出了基于零阶优化（ZOO）方法，直接估计目标模型的梯度来生成对抗样本。

DeepFool

计算最小程度的对抗扰动。

DeepFool首先初始化原始图像，并假定分类器的决策边界限制图像分类的结果，然后通过每一次迭代，沿着决策边界方向进行扰动，逐步地将分类结果向决策边界另一侧移动，使得分类器分类错误。

DeepFool比FGCSM计算速度更快，可以生成更精确的扰动，同时有相似的欺骗率。

Universal Adversarial Perturbations通用对抗扰动

对所有图像都有效的全局对抗扰动。

我们假设干净图像从 $\Im_c$ 分布中采样，只要扰动满足下面这个等式就可以称扰动为通用对抗扰动：

P（）	代表概率	$\delta \in(0,1]$	表示欺骗率
$\left \\| . \right \\|_p$	代表p范数	$\xi$	是一个预定的常量

ξ的值越小，越难以察觉图像中的扰动, 满足(6)的扰动对参数δ和ξ 有很强的依赖性。

公式的含义为：寻找一个ρ 能使得标签与真实标签不一致的概率大于δ。

UPSET and ANGRI

UPSET：对n个类别，找n种不同的全局扰动，图像添加了这个扰动后就会被分类到这个类别中。

ANGRI ：计算特定图像的扰动。

UPSET的优化问题如下：

$I_{c}$ 中的像素被归一化到[-1,1]，为保证 $I_{\rho }$ 为有效图像，对区间[ -1 , 1]以外的所有值进行裁剪。

Houdini

Houdini是一种通过生成可以根据任务损失定制的对抗样本来欺骗基于梯度的学习机的方法。即利用网络的可微损失函数的梯度信息生成对抗扰动。

有时候计算任务的损失并不适合一些应用场景（如语音识别应该基于单词错误率，这不允许直接利用损失函数梯度）。Houdini可以解决这个问题。

Adversarial Transformation Networks对抗变换网络 (ATNs)

训练一个前馈神经网络来生成对抗样本（与一般基于梯度的生成方法不同），可用于攻击一个或多个目标网络。经过训练的模型被称为对抗变换网络(ATNs)。

该算法通过最小化一个联合损失函数来生成对抗样本，该损失函数有两个部分，第一部分使对抗样本和原始图像保持相似，第二部分使对抗样本被错误分类。

上表展示了上诉的12中方法的主要属性

其他攻击（略）

B.除分类问题以外的对抗攻击

Attacks on Autoencoders and Generative Models 在自编码器和生成模型上的攻击

提出了一种扭曲输入图像(使其具有对抗性)的技术来误导自编码器重构出完全不同的图像。文献还指出自编码器似乎比典型的分类器网络更能抵御对抗性攻击，更具鲁棒性。

还探讨了针对深度生成模型的对抗样本的计算方法，例如变分自编码器(VAE)和变分自编码器生成对抗网络(VAE- GANS)，GANs能够学习数据分布并使用这些分布生成真实的图像，因此在计算机视觉应用中变得非常流行。

作者介绍了针对VAE和VAE- GANs的三种不同类型的攻击。这些攻击的成功，我们得出结论，深层生成模型也容易受到对手的攻击，因为对手可以说服它们将输入转换成非常不同的输出。

Attack on Recurrent Neural Networks 在循环神经网络上的攻击

循环神经网络（RNNs）是一种深度学习模型，特别适用于学习序列输入和输出之间的映射。为前馈神经网络计算对抗样本的算法(例如FGSM)也适用于欺骗 RNNs。长短时记忆(LSTM) RNN体系结构也成功被欺骗。

结论是，像RNN这样的循环神经网络模型也不能免疫于最初在非循环神经网络(即CNN)中发现的对抗性扰动。

Attacks on Deep Reinforcement Learning 深度强化学习上的攻击

针对深度强化学习训练的智能体的对抗性攻击有两种：

第一种攻击是策略定时攻击，提出了一种方法来确定何时应该创建和应用对抗样本，从而使攻击无法被检测到。

第二种攻击被称为'enchanting attack'，攻击者通过集成生成模型和规划算法将智能体引诱到指定的目标状态。生成模型用于预测智能体的未来状态，而规划算法生成引诱智能体的动作。

这两种方法成功地攻击了最先进的深度强化学习算法的智能体。

FGSM也可以用于在深度强化学习的背景下显著降低训练策略的性能。

Attacks on Semantic Segmentation and Object Detection在语义分割和目标检测上的攻击

Xie等人为语义分割任务和目标检测任务计算出了对抗样本，他们将两个任务转换角度思考，认为这些任务可以定义为对图像的多个目标进行分类，目标在分割问题中是像素或感受野，在检测问题中是目标建议。从这个角度出发，他们的方法，称为‘密集对抗生成算法'（DAG） ，通过优化一组像素/建议的损失函数来产生对抗样本。

他们的实验评估不仅证明了成功的欺骗了目标网络，而且表明产生的扰动在不同的网络模型中具有很好的泛化性。

左列(自上而下)：干净图像，正常分割(紫色区域被预测为狗)及检测结果。

右栏(自上而下)：扰动，错误分割(预测浅绿色区域为火车,粉红色区域为人)和检测结果。

三、现实世界的攻击

人脸属性
手机摄像头
路标攻击
3d对抗样本
网络空间攻击
机器人视觉&视觉问答

四、对抗样本的存在性分析

Limits on adversarial robustness 对抗鲁棒性的限制

Fawzi等人介绍了一个研究分类器对对抗扰动不稳定的框架。他们从数据集类间的"可区分性度量"方面对分类器的鲁棒性建立了基本限制，其中可区分性定义为线性分类器的两类均值之间的距离和所研究的非线性分类器的二阶矩矩阵之间的距离。

这项工作表明，对于深度神经网络以外的分类器，也存在对抗样本。所提出的分析将对抗不稳定的现象追溯到分类器的低灵活性，这与当时流行的观点并不完全正交，即网络的高度非线性使它们容易受到对抗样本的影响。

Space of adversarial examples 对抗样本的空间

Tabacof和Eduardo在MNIST和ImageNet数据集上生成了浅层和深层网络分类器的对抗样本，并利用不同的分布和强度的噪声来探测对抗样本的像素空间。作者通过实验证明，在像素空间的大区域中出现了对抗样本。然而，与线性假设相反，他们认为和一个强大的深层分类器一样，一个弱的、浅的、更线性的分类器也同样易受对抗样本的影响。

Tramer等提出了一种估计对抗样本空间维数的方法。据称，对抗样本跨越了一个连续的高维空间(例如,维数≈25)。由于维数较高，不同分类器的子空间可以相交，这就导致了对抗样本的可迁移性。有趣的是，他们的分析表明，即使在容易受到直接攻击的情况下，也有可能保护分类器免受基于迁移的攻击。

Boundary tilting perspective 边界倾斜视角

Tanay和Griffin提供了一种边界倾斜的视角来看待深层神经网络中对抗样本的存在。他们认为，一般来说，为学习和评估分类器而采样的单个类数据存在于类的子簇中，而当分类边界里子簇很近的时候就会有该类的对抗样本存在。他们形式化了一个‘adversarial strength’的概念，并将其简化为考虑分类器边界与最近的质心分类器之间的偏差角。结果表明，分类器的对抗强度可以随决策边界的倾斜而变化。作者还认为分类器的对抗稳定性与正则化有关。在Tanay和Griffin的观点中，关于对抗样本存在的线性假设是无法令人信服的。

Prediction uncertainty and evolutionary stalling of training cause adversaries预测的不确定性和训练的进化停滞导致了敌手的产生

Cubuk等认为，对抗样本的起源主要是由于神经网络对其预测的固有的不确定性。他们从经验上计算出不确定性的函数形式，这表明它独立于网络体系结构、训练协议和数据集。本文认为，这种函数形式只依赖于网络逻辑回归的差异。这最终导致了由对抗性攻击造成的欺骗比率，显示了对扰动大小的普遍缩放。他们研究了FGSM、ILCM和BIM的攻击来证实他们的说法。也有研究认为，网络在干净图像上的精度与其对抗鲁棒性有关。
Rozsa等人假设，对抗扰动的存在是对训练图像的决策边界演化停滞的结果。在他们看来，个体训练样本一旦被正确分类，就停止了对模型(即神经网络)的训练损失的贡献，这最终会使他们接近决策边界。因此，通过添加小扰动就可以将这些类似样本丢弃到错误的类区域。他们提出了一个批量调整的网络梯度(BANG)算法来训练一个网络，以减轻训练过程中的进化停滞。

Accuracy-adversarial robustness correlation 准确性-对抗鲁棒性的关系

为了解释对抗扰动的存在性，Rozsa等人实证分析了8个深度网络分类器的准确率与其对3种对抗攻击的鲁棒性之间的相关性。研究的分类器有AlexNet、VGG - 16和VGG - 19网络、Berkeley训练版本的谷歌公司和Princeton -谷歌公司、ResNet52、ResNet-101和Resnet - 152。在大规模ImageNet数据集的帮助下，生成对抗样本。他们的实验表明，具有较高分类精度的网络通常对对抗样本也表现出更强的鲁棒性。他们还得出结论，对抗样本在相似的网络拓扑之间传递得更好。

More on linearity as the source 更多关于线性的来源

Kortov和hopfield在稠密联想记忆模型(DAM)模型中考察了对抗性扰动的存在。与典型的现代深层神经网络相比，DAM模型采用了更高阶（二阶以上）的神经元之间的相互作用。作者已经证明，使用较小的相互作用能力的DAM模型产生的对抗样本，类似于使用一个带有ReLU激励函数的深度神经网络，无法欺骗具有更高阶交互的模型。作者提供了独立于FGSM攻击的对抗样本存在的经验证据，但支持Goodfellow等人的线性假设。

Existence of universal perturbations 通用扰动的存在

Moosavi-Dezfooli等人最初认为，通用的对抗性扰动利用了分类器诱导的决策边界之间的几何相关性。它们的存在一定程度上归功于一个子空间，它包含了决策边界的法线，这样，法线也围绕着自然图像。后来他们进一步建发展了他们的理论，证明了公共方向的存在(跨数据点共享)，而分类器的决策边界可以高度正弯曲。他们认为，这种方向在通用扰动的存在性中起着关键作用。在此基础上，提出了一种新的几何方法来有效地计算通用对抗扰动。
值得注意的是，以前的Fawzi等人也将分类器鲁棒性的理论界限与决策边界的曲率联系起来。类似地，Tramer等人也认为数据点附近决策边界的曲率是导致神经网络易受黑盒攻击的原因。在最近的另一项工作中，Mopuri等人提出了一个类似于GAN-like的模型来学习针对给定目标模型的通用对抗扰动的分布。学习到的分布也被观察到在模型之间表现出良好的可迁移性。

五、对抗攻击的防御

目前，针对对抗攻击的防御主要沿着三个方向发展：

1 )在学习过程中使用修改的训练或者在测试过程中使用修改的输入。

2 )修改网络，例如：增加更多的层/子网络，改变损失/激活函数等。

3 )在对看不见的样本进行分类时，使用外部模型作为附加网络。

第一个方向并不直接处理学习模型，而其他两个方向更加关心神经网络本身。

这些方向具体又可分为

（a）完全防御（Complete），不仅能鉴别出哪些是对抗样本，还能够分对对抗样本的原始类别。

（b）仅探测方法（Detection only），只能鉴别出哪些是对抗样本。

具体分类如下图：

在使用的分类法中，“修改”网络与使用“附加组件”之间的区别在于，前者在训练过程中改变了原始的深度神经网络结构/参数。而后者保持原始模型不变，并在测试期间附加外部模型。

A. Modified training/input 修改训练过程/ 输入数据

1) Adversarial training 对抗训练

对抗训练是抵御对抗样本攻击的第一道防线。将生成的对抗样本加入到训练集中去，做一个数据增强，让模型在训练的时候就先学习一遍对抗样本，可以提高神经网络的鲁棒性。

对抗训练、相当于是加了一层正则化以减少过拟合，进而增强网络的抵抗能力。然而，Moosavi-Dezfooli指出，无论添加多少对抗样本，都存在新的对抗攻击样本可以再次欺骗网络。

2) Data compression as defense 数据压缩

输入特性的维度通常过大，会导致出现一个大的攻击面。特征压缩的目的是从输入中去除不必要的特征，以区分正常样本与对抗样本。如果模型对压缩和非压缩输入的预测结果之间的 L1范数差大于某个阈值 T，则该输入被标记为对抗样本。

基于压缩的防御的一个主要限制是，较大的压缩也会导致干净图像上的分类精度损失，而较小的压缩往往不能充分地消除对抗扰动。

3) Foveation based defense 基于中央凹机制的防御

Luo等人提出用中央凹机制可以防御 L-BFGS 和 FGSM 生成的对抗扰动，其假设是基于CNN分类器训练大量数据集对于图像的缩放和转换变动是鲁棒的，而对抗模式不具备这种特性。但这种方法在更强大的攻击下还没被证明其有效性。

4) Data randomization数据随机化方法

数据随机化处理包括随机调整大小、填充、随机激活剪枝等。通过输入变换消除扰动，并在推理过程中引入随机性，使得相对于输入的损失梯度更难计算。该机制可以与如对抗性训练等其他防御方法相结合，对 FGSM、BIM、DeepFool和 C&W 等白盒攻击都表现出良好的性能。

B. Modifying the network 修改网络

首先，是几种“完全防御”方法，然后再是“仅检测”方法。

1) Deep Contractive Networks 深度收缩网络

在使深度学习对对抗攻击具有鲁棒性的早期尝试中，Gu and Rigazio等人引入了Deep Contractive Network(DCN)。研究表明，去噪自编码器可以减少对抗噪声，然而只是简单的将它堆叠在原始网络上只会让网络更加脆弱鲁棒性下降。针对这个现象，DCN在训练过程中使用了·类似于压缩自编码器的平滑度惩罚。虽然DCNs对基于L-BGFS的攻击具有合理的鲁棒性，但DCN被首次提出以来，已经引入了14种更强的攻击。

2) Gradient regularization/masking 梯度正则化

Ross 和 Doshi-Velez使用输入梯度正则化以提高对抗攻击鲁棒性，训练可微模型(如深度神经网络)，同时惩罚导致输出相对于输入的变异程度。这样一个小的对抗扰动就不会对输出有很显著的影响。该方法和蛮力对抗训练结合有很好的效果，但计算复杂度太高，在很多场合已经弃用。

3) Defensive distillation 防御蒸馏

Papernot 等人提出“蒸馏”的概念，来让深度神经网络对对抗样本更加鲁棒。

遇到对抗样本攻击时，改变网络结构，重新训练出一个更复杂的模型固然能防御这种攻击，但成本相对来讲就太大。防御蒸馏可以在不改变网络结构的前提下有效的应对攻击且尽可能小的影响模型的准确性。

防御蒸馏的思路是：首先根据原始训练样本X和标签Y训练一个初始的深度神经网络，得到概率分布F(x)。然后把第一步的输出结果F(x)作为新的训练标签训练一个架构相同、蒸馏温度T也相同的蒸馏网络，得到新的概率分布 $F^{d}(x)$ ，再利用整个网络来进行分类或预测，这样就可以有效地防御对抗样本的攻击。值得注意的是，C&W攻击声称成功地攻击了防御蒸馏技术。

4) Biologically inspired protection 生物启发的防御方法

Nayebi和Ganguli 证明了神经网络对具有高度非线性激活(类似于非线性树枝计算)的对抗攻击具有天然的鲁棒性。另外一项工作 Dense Associative Memory 模型也是基于相似的机制。Brendel和Bethge声称，由于计算的数值限制，这些攻击在生物激发的保护上失败了。稳定计算再次让攻击受保护的网络成为可能。

5) Parseval Networks

这些网络通过控制网络的全局Lipschitz常数来分层正则化。网络可以被看作是函数(在每一层)的组合，通过对这些函数保持一个小的Lipschitz常数，可以对这些函数对抗小的干扰。

6) DeepCloak

在分类层（一般为输出层）前加一层特意为对抗样本训练的掩膜层。添加的层通过前向传递干净的和对抗性的图像对进行显式的训练，它为这些图像对编码前几层的输出特性之间的差异。

它背后的理论认为添加层中最主要的权重对应于网络最敏感的特性(就对抗操纵而言)。因此，在分类时，通过将所添加层的主导权重强制为零来掩盖这些特征。

7) Miscellaneous approaches

这章包含了多个人从多种角度对深度学习模型的调整从而使模型可以抵抗对抗性攻击。

Zantedeschi等人提出使用有界的ReLU来降低图像中对抗性模式的有效性。

Jin等人介绍了一种前馈CNN，它使用附加噪声来减轻对抗性示例的影响。

Sun等人提出了以统计过滤为方法使网络具有鲁棒性的超网络。

Madry等人从鲁棒优化的角度研究对抗性防御。他们表明，与PGD对手进行对抗性训练，可以成功地抵御一系列其他对手。后来，Carlini等[59]也证实了这一观察。

Na等人采用了一种统一嵌入的网络进行分类和低水平相似度学习。该网络使用的是干净图像和相应的对抗性嵌入样本之间的距离。

施特劳斯等人研究了保护网络免受扰动的集成方法。

Kadran等人修改了神经网络的输出层，以诱导对对抗攻击的鲁棒性。

Wang等人利用网络中的非可逆数据变换，开发了抗敌对神经网络。

Lee等人开发了多种规则化网络，利用训练目标来最小化多层嵌入结果之间的差异。

Kotler和Wong提出学习基于相关性的分类器，该分类器对小对抗扰动具有鲁棒性。他们训练一个神经网络，在一个标准设置中，它可以很好地达到高精确度(90%)。

Raghunathan等人研究了具有一个隐藏层的神经网络的防御问题。他们的方法在

MNIST数据集上生成一个网络和一个证书，达到一个防御目的。

Kolter和Wong和Raghunathan等人是为数不多的几种可以证明的对抗敌对攻击的方法。考虑到这些方法在计算上不适用于更大的网络，唯一被广泛评估的防御是Madry等人的防御。

8) Detection Only approaches

a：SafetyNet

Lu 等人假设ReLU对对抗样本的模式与一般的图片不一样，他们提出在目标模型中附加一个径向基函数SVM分类器，使得SVM使用由网络后期ReLUs计算的离散代码。使用SVM将其代码与训练样本的代码进行比较从而检测出异常。

b: Detector subnetwork 检测器子网络

Metzen等人提出用一个子网络来增强目标网络，该子网络训练用于检测输入中的对抗性扰动的二进制分类任务。结果表明，将这种网络附加到模型的内部层并使用对抗性训练可以帮助检测使用FGSM、BIM和DeepFool方法产生的扰动。然而，Lu等后来表明，这种方法再次容易受到反对策的影响。

c: Exploiting convolution filter statistics 利用卷积滤波统计量

介绍了同 CNN 和统计学的方法做的级联分类器模型在分辨对抗样本上可以有 85% 的正确率。

d: Additional class augmentation 额外的类增广

Grosse等人提出通过增加一个类来增强潜在目标神经网络模型，将所有敌对的例子分类到这个类别中。

C. Network add-ons 使用附加网络

1) Defense against universal perturbations 防御通用扰动

Akhtar 等人提出了一种防御框架，为目标网络加入一层预输入层用来纠正被扰动的图片，从而让分类器重新变为只对干净的图片进行分类。这个预输入层被叫做扰动校正网络（PRN）,在训练过程中不改变原网络的参数。

通过对训练图像从PRN的输入输出差异中提取特征来训练一个单独的检测器。测试图像首先通过PRN，然后使用其特征来检测扰动。如果检测到对抗扰动，则使用PRN的输出对测试图像进行分类。

如图所示，增加扰动的图片先通过PRN网络进行纠正，然后再通过原网络进行分类。

2) GAN-based defense 基于 GAN 的防御

Lee等人利用生成性对抗网络的流行框架来训练一个对FGSM类攻击具有鲁棒性的网络。作者提出沿着一个试图为该网络产生扰动的发电机网络直接训练该网络。在训练过程中，分类器不断尝试对干净和扰动的图像进行正确的分类。我们将此技术归类为附加方法，因为作者建议始终以这种方式训练任何网络。在另一个基于GAN的防御中，Shen等人使用网络的生成器部分来修正一个受干扰的图像。

3) Detection Only approaches 仅探测方法

a: Feature squeezing 特征压缩

Xu 等人提出了用特征压缩来检测对一个图片的对抗扰动。他们为分类器增加了两个外部模型，这样这些模型就可以减少图像中每个像素的色位深度，并对图像进行空间平滑。两个模型通过判断原图和压缩后的图形是否存在很大的区别来判断这是否是个对抗样本。后续的工作介绍了这个方法对 C&W 攻击也有能接受的抵抗力。He等人也将特征压缩集成方法相结合，表明防御的强度并不总是通过组合来增加。

b: MagNet

Meng和Chen提出了一个框架使用一个或多个外部探测器将输入图像分类为对抗性或干净图像。在训练过程中，该框架的目的是学习各种干净图像的流行。在测试阶段，距离流形较远的图像被视为对抗，被拒绝。靠近流形(但不完全在它上面)的图像总是被重新格式化为位于流形上，并且分类器用重新格式化后的图像进行训练。将附近的图像吸引到干净图像的流形并丢弃远处图像的概念也启发了框架的名称，即MagNet。值得注意的是，Carlini和Wagner最近证明了这种防御技术也可以被稍大的扰动击败。

c: Miscellaneous methods

Liang等人训练了一个模型，把所有输入图片当成带噪声的，先学习怎么去平滑图片，之后再进行分类。将图像的扰动处理为噪声，并利用标量量化和空间平滑滤波分别检测这类扰动。将分离的二进制分类器训练为使用所提议的特性的对抗样本检测器。Gebhart和Schrater将神经网络计算视为图中的信息流，并提出了一种利用诱导图的持久同源性检测对抗性扰动的方法。

六、研究方向展望

The threat is real威胁是存在的

第三节和第四节回顾的文献清楚地表明，对抗性攻击会严重降低深度学习技术在多个计算机视觉任务上的性能。特别地，第四节回顾的文献确定了深度学习在现实世界中很容易受到对抗性攻击。因此，我们可以肯定地说，对抗性攻击在实践中对深度学习构成了真正的威胁。

Adversarial vulnerability is a general phenomenon 对抗脆弱性是普遍现象

所回顾的文献显示了不同类型的深度神经网络(如MLPs、CNN、RNN)在计算机视觉中完成各种任务(如识别、分割、检测)的成功。虽然大多数现有的工作集中在把深度学习愚弄在分类/识别的任务上，但根据调查文献，我们可以很容易地观察到，深度学习方法在一般情况下容易受到对抗攻击。

Adversarial examples often generalize well 对抗样本往往具有很好的泛化性

在文献中报道的对抗样本的一个最常见的特性是它们可以在不同的神经网络之间很好地转移。对于具有相对类似架构的网络来说，尤其如此。在黑盒攻击中，对抗性例子的推广经常被利用。

Reasons of adversarial vulnerability need more investigation
对抗性脆弱的原因需要更多的研究

关于深度神经网络对细微的对抗扰动的脆弱性背后的原因，文献中有各种不同的观点。通常，这些观点彼此之间并不是很一致。显然有必要在这方面进行系统的调查。

Linearity does promote vulnerability 线性确实会增加脆弱性

Goodfellow等人首先提出，现代深层神经网络的设计迫使它们在高维空间中线性地表现，这也使它们容易受到对手的攻击。虽然这个观点很流行，但在文学作品中也遭到了一些反对。我们的调查指出了多个独立的贡献，认为神经网络的线性对它们对对抗性攻击的脆弱性产生了影响。基于这一事实，我们可以认为线性确实促进了深度神经网络对对抗性攻击的脆弱性。然而，这似乎不是用廉价的分析扰动成功愚弄深度神经网络的唯一原因。

Counter-counter measures are possible 反对抗措施是有可能的

尽管存在多种防御技术来对抗对抗性攻击，但在文献中经常显示，通过设计反对抗措施，防御模型可以再次成功地攻击。这一观察结果使新的防御也有必要对其对抗明显反措施的鲁棒性·进行估计。

Highly active research direction 高度活跃的研究方向

深层神经网络对对抗性干扰的脆弱性的深刻影响，使得对抗性攻击及其防御的研究近年来非常活跃。这项调查所回顾的大多数文献是在过去两年内提出的，目前有大量文献源源不断地涌向这一方向。一方面，人们提出了一些技术来保护神经网络免受已知的攻击;更多更强大的攻击正在设计中。最近，为了防御对抗性攻击还组织了Kaggle竞赛。我们希望，这种高强度的研究活动最终将导致深度学习方法足够强大，用于现实世界中的安全和安全关键应用。