©PaperWeekly 原创 · 作者 | 孙裕道
单位 | 北京邮电大学博士生
研究方向 | GAN图像生成、情绪对抗样本生成
引言
对抗样本是深度学习模型的主要威胁之一,对抗样本会使得目标分类器模型分类出错并且它存在于稠密的对抗子空间中,对抗子空间又包含于特定的样本空间中。本文主要是对对抗子空间维数进行探讨,即针对于单个模型的特定样本对抗子空间的维度是多少,针对多个模型的特定样本对抗子空间的维度是多少。
对抗子空间
给定干净样本 ,以及其对应的标签 ,带有参数 的神经网络分类器为 ,损失函数为 ,对抗样本为 ,则根据多元泰勒展开式可得:
进一步可得优化目标为:
进而可得对抗样本的计算公式为:
其中 表示的是对抗扰动的大小。由上公式可知,干净样本 沿着梯度方向 可以进入到对抗子空间中。进一步详细的阐述如下图所示,其中图 (a),(b)和(c)表示的是给定一个干净样本沿着不同的方向生成的样本输入到分类器分类的结果示意图,每个方格表示每一个样本的分类结果,方格中白色表示分类器分类正确,彩色表示分类器分类成其它不同的类别。图(d),&#