论文笔记–Universal Adversarial Perturbations
目标:
得到一些通用扰动,这些扰动不是针对某一样本的,而是可以对整个服从同一分布的数据集中的大部分样本进行干扰,使它们发生误分类。
一、引入
已经有大量研究表明,在很多情况下,给图片加一点小的扰动就会使分类器产生错误分类,这使得系统安全性下降,容易受到外部攻击。目前产生对抗样本的方法主要有优化、梯度上升、搜索等,这些方法都是针对某一个特定的数据的。也就是说他们所生成的对抗样本只能对一个输入数据产生误分类的影响,对新的样本,要重新寻找反例。本文给出了一个寻找通用扰动的方法,使得添加这个扰动可以使数据集中的大多数样本分类错误。
二、问题的形式化描述
找到一个通用扰动v,使得对服从μ分布的数据集中的大部分样本x,都有k(x+v) ≠ k(x),其中k()表示分类器模型。
我们要得到的v要满足下面两个约束条件:
这里的p表示p范数,ξ控制扰动v的大小,δ用来度量预期的v对全部样本的干扰率