参考代码AdvDrop参考代码
对抗样本:在原始样本添加一些人眼无法察觉的扰动(这样的扰动不会影响人类的识别,但是却很容易愚弄模型),致使深度学习模型做出错误的判断。
AdvDrop主要思想:通过将图像的空间域转化为频域来丢弃信息,生成对抗样本。
主要作用:
1、之前的对抗样本都是以增加补丁或其他增添信息的形式来生成对抗样本,AdvDrop首次提出了丢弃信息来生成对抗样本。
2、目前的对抗样本防御方式主要是增加干扰,基于丢弃其中的恶意信息,而AdvDrop对于这种防御方式具有很强的鲁棒性
3、相比于其他攻击方式,AdvDrop更不易被察觉。
整体步骤
空间域转化为频域:
低频分量(低频信号)代表着图像中亮度或者灰度值变化缓慢的区域,也就是图像中大片平坦的区域,描述了图像的主要部分。主要对整幅图像强度的综合度量,多表示图像的一些主要部分。
高频分量(高频信号)对应着图像变化剧烈的部分,也就是图像的边缘(轮廓)或者噪声以及细节部分,主要是对图像边缘和轮廓的度量。
DCT变换对图像进行压缩的原理是减少图像中的高频分量,高频主要是对应图像中的细节信息,而我们人眼对细节信息并不是很敏感,因此可以去除高频的信息量。
DCT变换公式:使用离散的余弦函数
量化(信息丢弃):
存在的问题:该函数时阶梯函数,反向传播是无法求导
解决方案: 替换连续函数
当其中的参数变化时,函数的示意图如下:
可见该函数在α取一定值时接近于阶梯函数。
在这里,为了使图像变化不易被察觉,我们使用一个范数来对该量化表q进行约束。
将图像从频域转化为空间域:
使用反离散余弦函数IDCT对其做逆向处理
注意:在DCT和IDCT的过程中,变化是无损变化,即不丢弃图像中的信息,只有在量化过程中,才会有信息的丢失。
实验结果:
攻击成功率
相比其他的攻击方式有更高的成功率,尽管在某些防御手段下效果不好。
可察觉性
另外,在不同的范数约束下,AdvDrop都有比PGD更好的不易察觉性。
解释:
AdvDrop关注更具有纹理细节的部分,AdvDrop倾向于高频信息的丢失,也就是对应于图像的细节部分。
AdvDrop是一种以丢弃图像频域信息的攻击方式,这打开了对抗样本构造的新模式的大门。同时也说明了通过丢弃信息来生成攻击的其他方式也是可行的。此外它也可以应用于对DNN的解释性的说明。
想法:通过频域的修补技术,对丢失的信息进行修复,来抵御AdvDrop的攻击。