HGD处理对抗样本以防御对抗攻击

最新推荐文章于 2025-02-23 09:00:00 发布

学-evday

最新推荐文章于 2025-02-23 09:00:00 发布

阅读量2.5k

点赞数 1

分类专栏：对抗样本文章标签：神经网络

本文链接：https://blog.csdn.net/ilalaaa/article/details/106181390

版权

对抗样本专栏收录该内容

13 篇文章

订阅专栏

本文介绍了一种新的对抗样本防御方法——高级表示指导去噪器(HGD)，通过在DNN的输出层定义损失函数，有效抵御对抗噪声。文章对比了像素导向去噪器(PGD)的局限性，阐述了HGD的原理、分类及其防御效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

背景

对抗样本通过向原始图像添加噪声来构造，使得输入模型后分类错误。如果在对抗样本输入模型之前，进行去噪处理，将攻击者千方百计添加到原始图像上的轻微干扰去除，则可以得到与原始图像近似的去噪后图像，从而分类依旧正确。
在这里插入图片描述
之前提出像素导向去噪器PGD（pixel guided denoiser），令 $x$ 表示原始的干净图像， $x^*$ 表示对抗样本， $x^{'}$ 表示去噪后的图像。将损失函数定义为 $L = ∣ ∣ x - x^{'} ∣ ∣$ ，表示去噪后的图像与原始图像之间的差异。其中， $∣ ∣ . ∣ ∣$ 表示 $L_1$ 范数。由于该损失函数是定义在图像像素级别上的，因此命名为像素导向去噪器。

然而PGD有一个致命缺陷。去噪是相对性的，并不是绝对的，无论去噪过程多完善，总会存在残余的噪声在图像上。而在DNN中，存在误差放大效应。即残余的对抗噪声在一层层中会被放大，使得最后的输出存在的噪声仍足以使DNN分类错误。

因此，作者提出了HGD高级表示指导去噪器（High-Level Representation Guided Denoiser）。

HGD

原理

由于DNN存在误差放大效应，故将损失函数定义在输出层上。
令 $y$ 表示原始的干净图像通过DNN后的输出， $y^*$ 表示对抗样本的输出， $y^{'}$ 表示去噪后的图像的输出。将损失函数定义为 $L = ∣ ∣ y - y^{'} ∣ ∣$ ，表示去噪后的图像与原始图像的对应输出之间的差异。HGD的目标是，追求损失函数的最小化。损失函数越小，说明去噪后图像与原图像的输出差异越小，越接近初始图像，去噪效果越好。