Universal Adversarial Example介绍
对抗样本(Adversarial Example)是近年来机器学习领域比较火的研究话题,这类样本可以说是机器学习模型的死敌,可以让目前性能最好的机器学习模型都丧失其分类能力
本文旨在介绍更为特殊的一类对抗样本——通用对抗样本Universal Adversarial Example。
通用对抗样本的定义
对于样本 x ∈ X x \in X x∈X,机器学习模型 f ( x ) f(x) f(x),找到一个扰动 v v v,使得 1: f ( x + v ) ≠ f ( x ) , f o r a l m o s t a l l x ∈ X (1) f(x+v) \not= f(x), for \; almost \; all \; x \in X \tag{1} f(x+v)=f(x),foralmostallx∈X(1)
满足上式的扰动 v v v被称为通用对抗扰动。因为 v v v对于大部分样本都有效,因此危害性比一般的对抗扰动危害性更大,表现在两个方面:
(1)基于通用对抗扰动的攻击在测试阶段不需要目标模型的任何信息;
(2)极大地降低了实施对抗攻击的门槛,有效的话会在攻击者之间迅速流传。
生成通用对抗样本
目前,求解优化问题(1)主要采取迭代的方式,本文就以Universal adversarial perturbations2这篇论文为例进行介绍,这篇论文第一次发现了通用对抗扰动的存在。Algorithm 1 显示了生成通用对抗扰动的伪代码,其中 X X X表示数据集, k ^ \hat k k^表示目标模型(被攻击的模型), ξ \xi ξ表示扰动向量 v v v被允许的最大模长(