论文:Explaining and Harnessing Adversarial Examples
论文链接:https://arxiv.org/abs/1412.6572
在图像攻击算法中,FGSM(fast gradient sign method)是非常经典的一个算法。这篇发表于ICLR2015的文章通过梯度来生成攻击噪声,核心思想就是Figure1所示的内容。Figure1中左边图是常规的图像,一般的分类模型都会将其分类为熊猫(panda),但是通过添加由网络梯度生成的攻击噪声后,得到右边的攻击图像,虽然看起来还是熊猫,但是模型却将其分类为长臂猿(gibbon)。
那么FGSM的攻击噪声是怎么生成的呢?我们知道训练分类模型时,网络基于输入图像学习特征,然后经过softmax层得到分类概率,接着损失函数基于分类概率和真实标签计算损失值,回传损失值并计算梯度(也就是梯度反向传播),最后网络参数基于计算得到的梯度进行更新,网络参数的更新目的是使损失值越来越小,这样模型分类正确的概率也就越来越高。
图像攻击的目的是不修改分类网络的参数,而是通过修改输入图像的像素值使得修改后的图像能够扰乱分类网络的分类,那么结合刚刚讲的分类模型的训练过程,这里可以将损失值回传到输入图像并计算梯度,也就是下面这个值,其中J()是损失函数,x和y表示输入图像和真是