作者 | THOMAS TANAY、LEWIS D GRIFFIN
译者 | 张建军
编辑 | 姗姗
出品 | 人工智能头条(公众号ID:AI_Thinker)
【导读】许多研究已经证明深度神经网络容易受到对抗性样本现象(adversarial example phenomenon)的影响:到目前为止测试的所有模型都可以通过图像的微小扰动使其分类显著改变。为了解决这个问题研究人员也在不断探索新方法,L2 正则化也被引入作为一种新技术。本文中人工智能头条将从基本问题——线性分类问题开始给大家介绍解决对抗性样本现象的一些新视角。
前言
以下是由目前最先进的训练来识别名人的网络对某实例所生成的预测:
这个结果如此令人费解有两方面的原因。首先,它挑战了一个常见的想法,这个想法是,对新数据的良好泛化和对小扰动的鲁棒性应该是齐头并进的。其次,它对现实世界的应用构成了潜在的威胁。例如,麻省理工学院的研究人员最近已经成功构建了在相当多的角度和视角下都会被错误分类的 3D 物体。因此,理解这种现象并提高深度网络的鲁棒性已成为一个重要的研究目标。
针对这种现象,研究人员已经探索了几种方法。有些研究工作详细描述了这种现象并提供了一些理论分析。为了解决这个问题,人们尝试设计鲁棒性更强的网络结构或尝试在评估过程中检测对抗性样本。 对抗训练也被引入作为惩罚对抗方向的一种新的正则化技术。不幸的是,这个问题大部分都没有得到解决 。面对这个困难,我们建议从基本问题开始:首先关注线性分类,然后逐步增加问题复杂性。
玩具问题
在线性分类中,对抗性扰动通常被理解为高维度的点积的性质。一种普遍的直觉是:“对于高维问题,我们可以对输入进行许多无限小的改变,从而对输出进行一次大的改变” 。在这里,我们挑战这种直觉。我们认为,当分类边界靠近数据流形时,存在对抗性样本 – 并且其独立于图像空间维度。
▌设置
让我们从一个最小的玩具问题开始:一个二维图像空间,其中每个图像是 a 和 b 的函数。
在这个简单的图像空间中,我们定义了两类图像
这两类图像可以用无数个线性分类器分开。例如考虑直线 Lθ。
这就提出了第一个问题:如果所有的线性分类器 Lθ 都能很好地分离 I 和 J,那么他们是否对图像扰动具有相同的鲁棒性呢?
▌投影和镜像图像
考虑类 I 中的图像。距离x最近且属于相反类别的图像称为 在 Lθ 上投影图像(projected image):
当 和 互相非常靠近时,我们说 是 的一个对抗样本。请注意,的分类置信度比较低(它在分类边界上),我们考虑高分类置信度的对抗样本可能会更有趣。
下面,让我们来看看通过 Lθ 生成 的镜像图像(mirror image)。
通过构造, 和 到分类边界的距离相同,而且具有相同的分类置信水平。
▌镜像图像作为θ的函数
回到我们的玩具问题上面来。我们现在可以把图像 和它对应的镜像图像 作为 θ 的函数画出来。
可以看到, 和 之间的距离依赖于角度 θ。有两种边界情形非常值得我们关注。
当θ = 0;Lθ 没有遇到对抗性样本的问题。 以高置信度被分类为 I,而 以高置信度被分类为 J,这与人类的观测符合。
当θ -> π / 2;Lθ 遇到强对抗性样本的问题。 以高置信度被分类为 I,而 以高置信度被分类为 J,但是从视觉上很难把 和 进行区分。
而这就提出了第二个问题:如果对抗性样本存在并且 Lθ 强烈倾斜,那么实际上是什么导致了 Lθ 倾斜的呢?
▌过拟合和L2正则化
我们的一个合理假设是,由标准线性学习算法(例如支持向量机(SVM)或逻辑回归)所定义的分类边界过拟合了训练集中的噪声数据点而导致了倾斜。有研究将鲁棒性与 SVM 中的正则化关联起来。这一假设也可以通过实验进行测试:旨在减少过拟合(如 L2 正则化)的技术有望减轻对抗性样本现象。
例如,我们考虑一个训练集,其中包含有一个噪声数据点 p。
如果我们在这个训练数据集上训练一个 SVM 或者逻辑回归模型,我们会看到两种可能的行为。
没有 L2 正则化:分类边界被强烈地倾斜。要完全拟合训练数据导致分类边界的倾斜角度过大。这个例子中,数据点 p 可以被正确地分类,但是训练得到的分类器非常容易受到对抗性样本的攻击。
有 L2 正则化:分类边界没有被倾斜。L2 正则化允许错误分类某些训练样本,从而减少了过拟合。当使用了足够的正则化,数据点 p 会被忽略,训练得到的分类器对对抗性样本具有强鲁棒性。
来到这里,一个合理的问题是——位于二维图像空间中的一维数据流形与高维的自然图像有什么关系?
<