对抗样本文章笔记(三)

论文笔记–Universal Adversarial Perturbations

目标:

得到一些通用扰动,这些扰动不是针对某一样本的,而是可以对整个服从同一分布的数据集中的大部分样本进行干扰,使它们发生误分类。

一、引入

已经有大量研究表明,在很多情况下,给图片加一点小的扰动就会使分类器产生错误分类,这使得系统安全性下降,容易受到外部攻击。目前产生对抗样本的方法主要有优化、梯度上升、搜索等,这些方法都是针对某一个特定的数据的。也就是说他们所生成的对抗样本只能对一个输入数据产生误分类的影响,对新的样本,要重新寻找反例。本文给出了一个寻找通用扰动的方法,使得添加这个扰动可以使数据集中的大多数样本分类错误。

二、问题的形式化描述

找到一个通用扰动v,使得对服从μ分布的数据集中的大部分样本x,都有k(x+v) ≠ k(x),其中k()表示分类器模型。
这里写图片描述
我们要得到的v要满足下面两个约束条件:
这里写图片描述
这里的p表示p范数,ξ控制扰动v的大小,δ用来度量预期的v对全部样本的干扰率

三、算法描述

这里写图片描述
算法循环运行,直到达到足够的干扰率时结束。第i次循环时检查当前扰动v是否可以使样本xi分类错误,不可以时,将v移动到一个最近的并且能使xi分类错误的点上,在更新v的时候,要考虑到ξ的限制。循环结束后返回最终的v。
算法不需要运行在全部的样本上,而是抽取一个包含m个样本的子集X。当抽取的X不同时,会产生不同的v,这些v都可以对大部分样本产生错误分类。

四、实验

1、在ILSVRC 2012数据集上寻找通用扰动,对于p=2和p=∞的情况,ξ分别取2000和10,用来控制扰动v的大小,使得给样本添加扰动后人类无法察觉。实验结果如图所示:
这里写图片描述
实验表明这种通用扰动的确存在,并且可视化后可以看出存在不同的通用扰动。可视化图像:
这里写图片描述
2、对于同一个数据集,在模型A上生成通用扰动后在模型B上进行检测,实验证明,通用扰动是可以推广的,它跨模型有效。这意味着通用扰动对数据和模型都可以进行泛化。
3、建立有向图G=(V,E),顶点表示标签,边e=(i,j)表示添加通用扰动后,类i的大部分图像都被分类为j。可以看到有一些主要标签存在,其他标签被分类为这些主要标签之一。
这里写图片描述
4、利用通用扰动调优。将得到的通用扰动加到一小部分干净的训练样本中后再继续训练,在这个新的网络中使用算法一生成扰动,结果发现扰动的干扰性下降了,但即使下降了,也仍然是一个比较大的值。这种简单的方法并不能彻底抵抗通用扰动带来的影响。

五、解释为何模型会被小小的通用扰动攻击

1、通用扰动与其他扰动效果的比较:
这里写图片描述

展开阅读全文

没有更多推荐了,返回首页