HGD处理对抗样本以防御对抗攻击


论文 2018CVPR-Defense against Adversarial Attacks Using High-Level Representation Guided Denoiser.

背景

对抗样本通过向原始图像添加噪声来构造,使得输入模型后分类错误。如果在对抗样本输入模型之前,进行去噪处理,将攻击者千方百计添加到原始图像上的轻微干扰去除,则可以得到与原始图像近似的去噪后图像,从而分类依旧正确。
在这里插入图片描述
之前提出像素导向去噪器PGD(pixel guided denoiser),令 x x x表示原始的干净图像, x ∗ x^* x表示对抗样本, x ′ x' x表示去噪后的图像。将损失函数定义为 L = ∣ ∣ x − x ′ ∣ ∣ L=||x-x'|| L=xx,表示去噪后的图像与原始图像之间的差异。其中, ∣ ∣ . ∣ ∣ ||.|| .表示 L 1 L_1 L1范数。由于该损失函数是定义在图像像素级别上的,因此命名为像素导向去噪器。

然而PGD有一个致命缺陷。去噪是相对性的,并不是绝对的,无论去噪过程多完善,总会存在残余的噪声在图像上。而在DNN中,存在误差放大效应。即残余的对抗噪声在一层层中会被放大,使得最后的输出存在的噪声仍足以使DNN分类错误。

因此,作者提出了HGD高级表示指导去噪器(High-Level Representation Guided Denoiser)。

HGD

原理

由于DNN存在误差放大效应,故将损失函数定义在输出层上。
y y y表示原始的干净图像通过DNN后的输出, y ∗ y^* y表示对抗样本的输出, y ′ y' y表示去噪后的图像的输出。将损失函数定义为 L = ∣ ∣ y − y ′ ∣ ∣ L=||y-y'|| L=yy,表示去噪后的图像与原始图像的对应输出之间的差异。HGD的目标是,追求损失函数的最小化。损失函数越小,说明去噪后图像与原图像的输出差异越小,越接近初始图像,去噪效果越好。

分类

根据选择的网络层 l l l 的不同,提出了两种HGD。

  • FGD特征导向去噪器
    l = − 2 l=-2 l=2定义为最顶层卷积层的索引,在全局平均池化之后,该层的激活被馈送到线性分类层,因此与较低的卷积层相比,它与分类目标更多相关。FGD使用的损失函数也称为知觉损失或特征匹配损失。

  • LGD对数导向去噪器
    l = − 1 l=-1 l=1定义为最终softmax函数之前的层的索引,即对数。此时的损失函数为 x x x x ′ x' x激活的两个logit之差。
    在这里插入图片描述
    所有的PGD和HGD都是无监督模型,因为在训练过程中不需要地面真相标签。

  • CGD类标签引导去噪器
    另一种方法是将目标模型的分类损失用作去噪损失函数,在需要基础真实标签的情况下进行监督学习,该模型称为类标签引导去噪器(CGD)。

防御效果

针对 L 0 L_0 L0以及 L 2 L_2 L2攻击的防御效果不佳。原因在于这两类攻击限制了修改像素的数量,在修改程度上限制比较少,个别像素的被扰动程度可能过大,去噪效果不明显。该防御方法适用于 L ∞ L_\infty L攻击。

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值