论文学习:Feature Importance-aware Transferable Adversarial Attacks

Introduction

对抗样本就是在原始样本的基础上加一定的扰动,人类的感官很难辨识到这些扰动对图像产生的细微改变,但是这些改变却会对神经网络模型的预测结果产生影响。
在这里插入图片描述
根据攻击者所拥有的知识,可以分为白盒攻击黑盒攻击两类。从图可以知道,白盒攻击是已知源模型的参数进而求得对抗样本然后去攻击源模型,黑盒攻击则是已知源模型的参数进而求得对抗样本然后去攻击其他未知模型。
在这里插入图片描述
采用传统攻击方法制作的对抗样本往往由于对源模型的过拟合而表现出较弱的可转移性。因此,一些研究试图通过在优化过程中引入额外的操作来缓解这种过拟合,以提高可转移性,如随机变换,平移操作。最近,有学者直接在中间层进行攻击,这些攻击不会干扰输出层,而是最大化内部特征失真,实现更高的可转移性。然而,现有的方法在不考虑图像中物体的内在特征的情况下,通过不加区别地扭曲特征来生成对抗实例,因此很容易陷入特定于模型的局部最优。因此,由现有方法会过度拟合源模型,并阻碍对抗样本的可转移性。基于以上背景,本文提出了一种特征重要性感知攻击。
在这里插入图片描述
我们先通过一张效果图看一下本文取得的成果。从图中可以看出,在传统攻击中,对抗样本在黑盒攻击中被弱化,鸟的特征比原先更加突出,在FIA中,注意力被转移。这就表明,与传统的任意攻击相比,所提出的FIA的对抗样本明显地使模型离焦,即未能捕捉到目标的重要特征。与此同时,这些模型被误导去关注那些微不足道的领域。我们的攻击将抑制重要的特征,提升周围这些比较琐碎的特征,从而误导模型,也就是说,我们的对抗样本导致源和目标模型不仅未能捕获重要的对象,而且还聚焦于琐碎的区域。
在这里插入图片描述
本文的主要贡献主要有以下三个方面:
在这里插入图片描述

Feature Importance-aware Attack(FIA)

我们看一下FIA具体是怎么实现的,首先是一个函数,用来衡量对抗样本的好坏。

假设有一个分类模型fθ: x →y,其中x和y分别表示干净图像和真实标签,θ表示模型的参数。我们的目标是生成一个敌对的例子xadv,他会误导分类器,即fθ产生的预测结果不等于y。
在这里插入图片描述

我们可以把这个问题定义成一个优化问题,即定义一个损失函数J(·,·)测量真实标签和预测标签之间的距离(即交叉熵),在这个公式中p =∞,也就是采用无穷范数,取向量中各个元素的绝对值的最大值,也就是x-xadv的绝对值最大不超过埃普西隆。针对上述优化问题需要明确访问fθ的参数,而这在黑盒攻击中是不切实际的。因此,一个可行的解决方案是在一个具有可访问参数φ的模拟模型fφ上进行优化,从而产生高度可转移的对抗示例来攻击目标模型fθ。

对抗样本的生成需要由源模型中与模型无关的关键特性来指导,这被称为特性重要性。我们之前提到过通过不加区别地扭曲源模型的特征来制造对抗样本,会陷入模型特定的局部最优,并显著降低可转移性。因为模型将学习额外的“噪声”特征以及物体的内在特征,“噪声”特征与物体相关的特征被平等对待,而这些“噪声”特征是特定于模型的,所以会陷入特定于模型的局部最优。因此,避免这种局部最优是可转移性的关键。
在这里插入图片描述
如上图所示,将图像输入到网络当中,然后从中间层提取特征图(这里也就是红色的部分),然后进行梯度回传,用梯度来代表feature importance,然后将梯度与特征图进行点积(Element-wise Product)。相乘之后得到有权重的特征图weighted feature map。对于这些有权重的特征图我们的目的是抑制Positive Feature,然后提升Negative Feature。

将梯度可视化之后就如下图。其中Raw Features、Raw Gradients、Aggregate Features、Aggregate Gradients分别表示原始特征图、原始梯度图、经过聚合之后的特征图、经过聚合之后的梯度。从图中我们可以发现,原始梯度图和原始特征图在视觉上都是有噪声的,但是经过聚合之后的特征图和梯度图就消除了这样的影响。而对抗攻击的目的就是为了使得模型失效,那么我们只要提升聚合之后特征图在非目标区域的梯度,减小特征图在目标区域的梯度,那么我们的攻击就能够成功。
在这里插入图片描述

我们先来看一下如何进行特征聚合的。如下图所示,对原图像进行采用概率为pd的随机像素下降,即随机mask,也就是随机丢弃一些像素,然后得到我们的输入,之后将这些图像输入到模型当中经过然后通过梯度反向传播得到我们的梯度,之后将梯度相加得到聚合梯度。而聚合的梯度也就是我们的Feature Importance,特征重要性。
在这里插入图片描述
这个公式表达的就是我在原始图像上,利用伯努利分布,随即丢弃一些像素,得到一些随机mask,然后这些随机mask与原始特征图元素集相乘,把所有的结果进行L2范数,求得的聚合梯度就是feature importance。

利用上面的聚合梯度∆xk,我们设计了损失函数,就是聚合梯度与第k层的特征图进行点积。生成可转移的对抗样本的目的是减少正∆的重要特征,增加负∆对应的重要特征。
在这里插入图片描述

Experiment

Experiment Setup

在这里插入图片描述

Comparison of Transferability

对正常训练模型的不同攻击成功率。第一列显示源模型,第一行列出目标模型。FIA是我们的方法,FIA+PIM是FIA和PIM的结合。“*”表示白盒攻击,因为目标模型是源模型。

在这里插入图片描述
不同攻击对防御模型的成功率。第一列显示源模型,第一行列出目标模型。FIA是我们的方法,FIA+PITIM是FIA、PIM和TIM的组合。
在这里插入图片描述

使用包含Res-50、Res-152、Vgg-16和Vgg-19的集成模型时,不同攻击对防御模型的成功率。最好的结果用粗体突出显示。
在这里插入图片描述

Effect of Parameters in Aggregate Gradient

采用inc-v3作为源模型概率和集合数对攻击成功率的影响。概率从0.1变化到0.5,N从5变化到40。最上面一行是对两种正常训练模型的攻击成功率,最下面一行是对两种防御模型的攻击成功率。可以看出概率pd对成功率有着重要的影响,而且这种影响在不同的目标模型中一致的。一个较大的pd(如0.5)会破坏图像的重要结构信息,从而大大降低了成功率。因此,攻击常规训练模型的最优pd值在0.2 ~ 0.3之间,攻击防御模型的最优pd值在0.1左右。对于N, N越大,成功率越高,但会逐渐饱和。最后,我们确定N = 20,对正常训练模型的概率pd = 0.3,对防御模型的概率pd = 0.1。
在这里插入图片描述

特征层k的选择对特征级攻击的影响很大,早面的层没有学习到真实类的显著特征和语义概念,后面的层是特定于模型的,容易陷入局部最优。相比之下,中间层具有分离良好的类表示,它们与模型体系结构的相关性不高,因此我们选择中间层进行可迁移性攻击。基于这一结论,我们首先为每个源模型选择几个中间层,并根据经验结果确定最终的攻击层。
在这里插入图片描述

Ablation Study

本文提出的FIA的关键是聚合梯度∆,为了表明聚合梯度的重要性,进行了消融研究,以比较有和没有聚合梯度的目标的性能。我们构建了三个目标函数,如下所示,其中L1像大多数方法一样,在没有约束的情况下优化特征发散,L2使用非聚合梯度∆clean,即来自原始干净图像的梯度。L3相当于我们提出的损失。
在这里插入图片描述

Conclusion

基于迁移性的黑盒攻击首先利用gradient aggregate获取迁移性更好的梯度信息,本文中认为梯度信息代表了该点的feature importance,然后通过抑制比较重要的feature,增强不重要的feature,来干扰模型最终的判断。

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值