文章目录
1 引言
对抗样本(adversarial examples)的概念当初是goodfellow为了证明神经网络由于在高维特征空间中具有线性特性,容易在高维特征空间中被误导这一现象而提出来的[1]。对抗样本的定义比较简单,是指给输入样本细微的扰动,最终导致神经网络输出非预期的效果。当然这种细微的扰动是在于人类能够辨识出来目标物体的前提下的,最好这种扰动是对人类来讲无感的。目前主要的应用于两方面:一方面用于对抗某些非法分子利用AI技术进行恶意攻击,比如12306网站的验证码识别上,在不影响人类判断的前提下能够误导AI技术自动识别;另一方面就是通过生成对抗样本来生成更具有鲁棒性的模型。
2 分类
2.1 黑盒与白盒
生成对抗样本在不同的角度有不同的划分方法,如果按照被攻击的模型的话,可分为白盒与黑盒。白盒是指被攻击的模型是已知的,包括网络结构及权值参数等信息;相反黑盒就是被攻击的模型是未知的。显然,白盒的成功率会比黑盒的高。所以现在有一些黑盒是通过在某种已知的模型进行白盒生成抵抗样本,然后将生成的对抗样本送入黑盒系统中对其进行攻击。
2.2 有目标对抗和无目标对抗
顾名思义,有目标对抗指的是通过对输入样本进行一定的扰动,使得模型预测出所指定的类别。无目标对抗指的是对输入样本进行一定的扰动,使得模型错误的预测出自身的类别。简单点说,有目标对抗表示输入对抗样本后,模型输出是指定的目标类别,此目标类别和真实的类别不同;无目标对抗表示输入对抗样本后,模型输出不是真实的类别。从定义来看有目标对抗会比无目标更苛刻,但是比较多的文章都是针对于有目标对