[PAPER]Heat and Blur: An Interpretability Based Defense Against Adversarial Examples

文章介绍了一种名为Heat and Blur的防御策略,通过特征可视化和输入模糊化对抗对抗性攻击。利用神经网络激活保持的“真实”对象信息,生成相关热图,并应用模糊处理破坏对抗效果。此外,提出新的评估指标NDCG以衡量防御性能。
摘要由CSDN通过智能技术生成

本文提出了一种防御方法,即将特征可视化与输入修改相结合,适用于不同的预训练的网络。即使输入是对抗性的,“真实”对象的相关信息也会由于神经网络的激活保存完好,因此可以以特征可视化的方式提取相关热图里的信息。然后将这些热图用作防御的基础,通过这种防御方法,对抗效果会因图像的大量模糊而损坏。本文还提供了一种新的评估指标,可以更全面的描述攻击和防御的效果。

Feature Visualization

特征可视化方法的原始目的是更好的解释神经网络。已经提出了几种方法可以找出对神经网络决策有帮助的特征。有三种方法可以达到此目的:

  1. 输入修改方法,通过修改输入观察对模型输出的影响。
  2. 类激活映射方法,该方法将特定层(通常是高层)的激活模式与其他信息(例如输出和梯度)结合在一起;
  3. 基于反向传播的方法

反向传播中最基础的贡献规则定义为:
在这里插入图片描述
其中 z i j = x i w i j z_{ij} = x_iw_{ij} zij=xiwij R ( l ) R^{(l)} Rl是第 l l l层的相关性。

在这里插入图片描述
通过使用标准DTD方法首先反向传播所需输出神经元的一热编码来创建热图,然后对热图的像素进行二值化,以便仅将顶部的5% 像素被保留:
首先对想要输出的神经元的独热编码进行反向传播得到热图,然后使用标准DTD方法对热图进行二值化。
通过这个公式,热图中对输出结果影响最大的5%个像素被保留下来:
在这里插入图片描述
P ˉ \bar{P} Pˉ S p S_p Sp分别代表热图像素的均值和标准差。
在这里插入图片描述
Heat and Blur算法流程:
在这里插入图片描述
σ \sigma σ控制模糊效果的大小
在这里插入图片描述

评价指标:
作者认为当前的top-k准确性度量标准并不能表达正确预测和对抗预测之间的语义和概念差距。因此作者建议使用信息检索中广泛使用的排名质量度量也称为归一化累计折扣增益Normalized Discounted Cumulative Gain (NDCG)作为评价标准。

对于特定的良性输入 i b i_b ib,模型预测输出集合的分数为:
在这里插入图片描述
l j l_j lj是输出神经元 j j j预测分类前的值
K 1 = m a x k ∑ j = 1 k p j ( i b ) ≤ C b K_1 = \underset{k}{max}\sum_{j=1}^{k}p^{(i_b)}_j\leq C_b K1=kmaxj=1kpj(ib)Cb
C b = [ 0 , 1 ] C_b = [0,1] Cb=[0,1]

对于对抗样本 i a i_a ia,模型预测输出集合的分数为:
在这里插入图片描述
p j m a t c h p_{j_{match}} pjmatch是与 i b i_b ib输出类别概率 p j p_j pj相匹配的 i a i_a ia预测
K 2 = m a x k ∑ j = 1 k p j ( i a ) ≤ C a K_2 = \underset{k}{max}\sum_{j=1}^{k}p^{(i_a)}_j\leq C_a K2=kmaxj=1kpj(ia)Ca
C a = [ 0 , 1 ] C_a = [0,1] Ca=[0,1]

图像 i i i的折扣累计增益为:
在这里插入图片描述

DCG规范化为:在这里插入图片描述
IDCG是良性图片预测的理想DCG

对于对抗样本 i a i_a ia的规范化DCG为:
在这里插入图片描述
作者提出里一种针对Heat and Blur防御的自适应攻击:
在这里插入图片描述
实验结果:
在这里插入图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值