介绍一篇对抗学习最新论文 Meta Adversarial Training ,作者来自德国博世公司。
引言
深度学习模型中一个很致命的弱点就是它容易遭到对抗样本攻击。在真实物理世界中,通用对抗样本可以低成本的对深度模型进行对抗攻击,这种对抗攻击可以在各种环境中欺骗模型。
到目前为止对抗训练是针对对抗攻击最有效的防御手段,但问题在于训练对抗模型是一件成本很高的事情,而且防御通用对抗样本难度会更大。
在该论文中作者提出了一种元对抗训练方式,它将对抗训练和元学习的结合在一起,不仅降低训练成本,而且大大提高了深度模型对通用对抗样本的鲁棒性。
背景介绍
通用对抗扰动于2017年的《Universal adversarial perturbations》中被首次提出。
通用对抗扰动与单一图片的对抗扰动有很大的区别。通用对抗扰动最大的一个特点就是该扰动与输入图片无关,它与模型本身和整个数据集相关;
而单一图片的对抗扰动只是针对于它的输入图片,对数据集其它的图片攻击性几乎没有。
如上图所示,假如有一个动物数据集和经该数据集上训练得到神经网络分类器,经过对抗攻击生成了针对于该动物数据集和该模型的通用对抗扰动Universal perturbation。
将该对抗扰动加在选取出的猫,狗,兔子,猴子,鸟的图片,并输入到分类器中,分类器全部分类出错。
模型介绍
假定 是 维向量数据点 和相应标签 上的分布, 为待优化模型参数, 为损失函数, 为对抗扰动集合, 为对数据点施加扰动 的函数, 为随机扰动向量。
对于通用对抗扰动,对抗扰动的集合表示为: