本文提出了一种防御方法,即由高级特征主导的去噪器 high-level representation guided denoiser(HGD)。 标准去噪器具有误差放大效应,在这种效应中,较小的残留对抗噪声影响会逐渐放大,最终导致错误的分类。HGD通过将损失函数定义为由干净图像和去噪图像激活的目标模型输出之间的差值解决了这个问题。
HGD具有三个优点:
- HGD可以使目标模型面对对抗攻击更加鲁棒
- HGD具有较好的泛化性
- HGD效率更高(需要更少的训练数据和训练时间)
由于对抗样本使在原始图像添加特定的扰动,因此一个自然的想法就是对图像进行去噪。降噪模型确实可以在一定程度上减少噪声,但是都不能去除所有的对抗扰动,又由于误差放大效应“error amplification effect”的存在,使得目标模型仍然会误分类图像。为了解决这个问题,作者将原始图像和对抗样本引起的目标模型输出之间的差异作为损失函数,而不是通过修改像素。作者将通过此损失函数训练的去噪器命名为(HGD)。
去噪模型:
- Pixel guided denoiser(PGD) :基于像素点的去噪器,将对抗样本转换为去噪样本。通过计算去噪样本和原始图像的 L1范数来确定损失函数(基于像素点的距离)。
L = ∣ ∣ x − x ^ ∣ ∣ L = ||x-\hat{x}|| L=∣∣x−x^∣∣
x x x:原始图像
x ^