Threat of Adversarial Attacks on Deep Learning in Computer Vision A Survey

Attacks for classification

   Box-constrained L-BFGS
   Fast Gradient Sign Method (FGSM)
   Basic & Least-Likely-Class Iterative Methods
   Jacobian-based Saliency Map Attack (JSMA)
   One Pixel Attack
   Carlini and Wagner Attacks (C&W)
   Universal Adversarial Perturbations
   Adversarial Transformation Networks (ATNs)

Attacks beyond classification/recognition

   Attacks on Autoencoders and Generative Models
   Attack on Recurrent Neural Networks
   Attacks on Deep Reinforcement Learning
   Attacks on Semantic Segmentation and Object Detection

Box-constrained L-BFGS
但是由于难以解决,因此他们使用box-constrained L-BFGS方法寻求近似解,即寻找使神经网络做出误分类的最小的损失函数添加项c,转化成凸优化过程。

Fast Gradient Sign Method (FGSM)
Szegedy 等人发现可以通过对抗训练提高深度神经网络的鲁棒性,GoodFellow等人开发了一种能有效计算对抗扰动的方法。

求解对抗扰动的方法就被称为 FGSM。FGSM方法证实了现代深层神经网络的设计的高维线性性。
Kurakin等人提出了 FGSM 的「one-step target class」的变体。通过用识别概率最小的类别代替(3)中的l。

Basic & Least-Likely-Class Iterative Methods
one-step 方法通过沿一方向做一大步运算,增大分类器的损失函数而进行图像扰动,这个想法的一个直观的扩展是通过多个小步增大损失函数,从而我们得到 Basic Iterative Methods(BIM)。而该方法的变体和前述方法类似,通过用识别概率最小的类别(目标类别)代替对抗扰动中的类别变量,而得到 Least-Likely-Class Iterative Methods(ILCM)。

Jacobian-based Saliency Map Attack (JSMA)

One Pixel Attack

Carlini and Wagner Attacks (C&W)
Carlini 和Wagner提出了三种对抗攻击方法,通过限制 l∞、l2和l0范数使得扰动近似无法被察觉。实验证明 defensive distillation(一种有效缓解对抗攻的方法) 完全无法防御这三种攻击。该算法生成的对抗扰动可以从 unsecured 的网络(没有蒸馏)迁移到 secured 的网络(蒸馏)上,从而实现黑箱攻击。
受C&W启发,有学者提出了Zeroth Order Optimization (ZOO)方法,直接估计目标模型的梯度来生成对抗样本。

Moosavi-Dezfooli 等人通过迭代计算的方法生成最小规范对抗扰动,该算法通过一个小的向量来扰动图像,将位于分类边界内的图像逐步推到边界外,直到出现错误分类。作者证明他们生成的扰动比 FGSM 更小,同时有相似的欺骗率。

Universal Adversarial Perturbations
Universal Adversarial Perturbations 能生成对任何图像实现攻击的扰动,该论文中使用的迭代方法和 DeepFool 相似,都是用对抗扰动将图像推出分类边界,不过同一个扰动针对的是所有的图像。

UPSET特定的目标类别生成对抗扰动,使得该扰动添加到任何图像时都可以将该图像分类成目标类别。相对于 UPSET 的「图像不可察觉」扰动,ANGRI 生成的是「图像特定」的扰动。它们都在 MNIST 和 CIFAR 数据集上获得了高欺骗率


Adversarial Transformation Networks (ATNs)
Baluja 和 Fischer训练了多个前馈神经网络来生成对抗样本,可用于攻击一个或多个目标网络。经过训练的模型被称为对抗变换网络(ATNs)。该算法通过最小化一个联合损失函数来生成对抗样本,该损失函数有两个部分,第一部分使对抗样本和原始图像保持相似,第二部分使对抗样本被错误分类。

Attacks on Autoencoders and Generative Models

Attack on Recurrent Neural Networks
Papernot等成功地生成了递归神经网络的对抗性输入序列。Papernot等证明了为前馈神经网络计算对抗样本的算法(例如FGSM)也适用于欺骗 RNNs

Attacks on Deep Reinforcement Learning
Lin等提出了两种不同的针对深度强化学习训练的代理的对抗性攻击。在第一种攻击中,被称为’strategically-timed attack’,对手通过在一段中的一小部分时间步骤中攻击代理来最小化对代理的奖励值。提出了一种方法来确定什么时候应该制作和应用对抗样本,从而使攻击不被发现。在第二种攻击中,被称为‘enchanting attack’,对手通过集成生成模型和规划算法将代理引诱到指定的目标状态。生成模型用于预测代理的未来状态,而规划算法生成用于引诱它的操作。

Attacks on Semantic Segmentation and Object Detection
Xie等生成了在观察下的语义分割和目标检测的对抗样本。他们的方法,称为‘Dense Adversary Generation’,通过一组pixels/proposal来优化一个损失函数,以产生对抗样本。

