©PaperWeekly 原创 · 作者|孙裕道
学校|北京邮电大学博士生
研究方向|GAN图像生成、情绪对抗样本生成
论文标题:DeepFool: a simple and accurate method to fool deep neural networks
论文链接:https://arxiv.org/abs/1511.04599
引言
Deepfool 是一种经典的对抗攻击方式,它首次对样本鲁棒性和模型鲁棒性镜进行了定义,并且它可以精确计算深度分类器对大规模数据集扰动,从而可靠地量化分类器的鲁棒性。该论文通俗易懂,并且有大量细节丰富的图示,有高中的代数知识基本上就能看懂算法的核心原理。本文会对 Deepfool 算法的原理进行详解,最后一部分是对 Deepfool 核心代码的解读。
论文的贡献
本文的贡献可以归结如下三点:
作者提出了一种新的计算对抗样本的方法 DeepFool,该方法是基于梯度迭代方法中生成扰动最小的,并且能有较高的攻击准确率。
作者用对抗样本增加训练数据,显著提高模型对对抗扰动的鲁棒性,该部分贡献对抗训练的前期研究。
作者分析了 FGSM 算法来验证分类器的鲁棒性的不合理性,并提出该算法会过分的评估分类器的鲁棒性,并定义了什么是样本鲁棒性,什么是模型的鲁棒性。
模型介绍
3.1 鲁棒性定义
给定一个分类器,样本鲁棒性是使得模型出现误分类的最小扰动,具体形式如下:
其中, 为干净的样本, 为模型预测的标签。 为样本 在模型分类器 的鲁棒性。进而作者又定义出了模型在整个数据集上的鲁棒性,具体形式为:
这是一种期望的形式。这里有一个困惑,如果让我自己来定义模型的鲁棒性具体的形式为:
即表示所有样本鲁棒性的期望。但是作者的这种定义是在分母中都除以一个样本的 2 范数,作者的模型鲁棒性的定义与我理解的模型鲁棒性的定义的优劣需要日后验证。模型鲁棒性是更好地理解当前网络体系结构的局限性和设计增强健壮性的方法的关键。
3.2 DeepFool攻击二分类器
该论文写作方式是由浅入深,先介绍了 DeepFool 攻击二分类器的算法。
上图为对抗样本攻击线性分类器的图示。其中 为一个二分类器。 为干净样本点 的最短距离,即为样本点 在分类器 中的鲁棒性。