对抗样本生成算法
一、FGSM(Fast Gradient Sign Method)
1.FGSM基本思想
Fast gradient sign method缩写为FGSM,其思想来源于“随机梯度下降使得模型对于输入图像输出的损失函数值变小,从而使网络输出正确的预测,那么如果将计算得出的损失值加到输入图像上,使得网络输出的损失值变大,即可使网络趋向于输出错误的预测结果”。
2.FGSM算法流程
需要进行对抗样本生成的原始图片 x o r i x_{ori} xori,其标签为 y y y,一个良好的分类模型 M M M,分类模型 M M M的参数 θ \theta θ,同时需要使用FGSM生成一个攻击噪声 η \eta η。
首先使用分类模型 M M M对输出 x o r i x_{ori} xori进行一个前向传播,可以计算ß出损失函数值 ∇ x o r i J ( θ , x o r i , y ) \nabla_{x_{ori}} J(\theta,x_{ori},y) ∇xoriJ(θ,xori,y),因为损失计算得到的雅可比矩阵的元素大小不均,所以为了控制损失值的无穷范数(每一个像素的损失值的最大值),所以使用符号函数 s i g n ( ) sign() sign()提取梯度的方向,而不是用梯度的值,同时我们使用一个参数 ε \varepsilon ε来控制攻击噪声的幅值,满足 ∥ η ∥ ∞ < ε \left \| \eta \right \|_\infty<\varepsilon ∥η∥∞<ε。
综上
η = ε s i g n ( ∇ x o r i J ( θ , x o r i , y ) ) (1.1) \eta=\varepsilon sign(\nabla_{x_{ori}} J(\theta,x_{ori},y)) \tag{1.1} η=εsign(∇xoriJ(θ,xori,y))(1.1)随后,将原图加上攻击噪声 η \eta η即可得到原始图片 x o r i x_{ori} xori的对抗样本 x a d v x_{adv} xadv
x a d v = x o r i + η (1.2) x_{adv}=x_{ori}+\eta \tag{1.2} xadv