论文学习:Local Black-Box Adversarial Attacks:A Query Efficient Approach

背景介绍

在这里插入图片描述

对抗攻击就是在一张原始图片上添加一定的扰动,就可以骗过分类器获得错误的分类结果,比如上述图片里本来是一个百吉饼,加上扰动之后,分类结果就变成了一架钢琴。

根据可以获得信息的多少可以分为白盒攻击黑盒攻击。白盒攻击可以访问模型的参数信息,而黑河攻击中可以访问的参数信息有限或者完全不能访问参数信息,目前受到较多关注的是黑盒攻击。目前对抗攻击主要分为三类(如图),在这三种对抗攻击中,第一种属于白盒攻击,我们不做过多的介绍,第二种和第三种属于黑盒攻击。基于分数的对抗攻击中,攻击者可以获得攻击结果也就是模型的判定类别,还可以获得一个分数。在决策攻击中,攻击者无法获得最终的分数,只能获得最终的分类结果。在黑盒攻击中,对抗样本的好坏由查询次数决定。本文就是研究怎么用较少的查询次数获得较好的对抗样本。

目前为止大多数对抗攻击都是对原始样本进行全局扰动,但是并不是所有像素对分类结果的影响都是平等的,比如图片中的这个例子,对于ResNet50这个模型来说,把图中这个西伯利亚哈士奇正确识别出来的概率为51.82,当把背景去除后,识别成功的概率为66.04,而如果只识别背景部分成功的概率只有0.26,因此图像的背景不应该影响分类结果,所以如果只对图片的局部区域进行扰动可以产生效果更好的对抗样本
在这里插入图片描述
局部扰动的产生主要有两个步骤,首先是识别原始样本的可区分像素/区域,但是现有的方法要么依赖于目标模型的白盒访问,要么消耗大量的计算资源。第二个步骤是,查询目标模型添加扰动,直到骗过目标模型,现有的方法要么需要与目标模型的大量交互,要么会产生可见噪声。

基于以上背景,我们来看一下本文提出的方案,分三个部分进行,分别是总体框架,然后再分别看一下本方案的两个模块。

本文的方案

整体框架

两个可转移性

第一个是模型解释器的可转移性,从图中可以看出,即使对应的模型具有不同的体系结构和参数,模型解释之间也存在较大的重叠。因此可以使用简单公开的模型识别原始样本的可区分区域/像素。第二个是对抗样本的可转移性,我们用A模型产生的对抗样本可以也可以成功骗过B模型。
在这里插入图片描述
关于模型解释器,我们做一下简单介绍。模型解释器用来识别模型预测最依赖的输入部分,本文选择Grad-CAM来确定局部的重要区域。Grad-CAM的原理如图所示,GradCAM首先为F的最后一层卷积层的每个特征图Ab计算一个权重。然后计算所有具有相应权重的特征图的加权和。接下来,对加权和应用ReLU函数过滤掉负面影响。最后,生成一个显著图SM,反映每个像素的输入对目标模型的重要性。

在这里插入图片描述

设计策略

现有的黑盒攻击大多是通过全局扰动生成对抗样例,通过与目标模型交互从头扰动干净样例,这需要大量的查询才能获得满意的扰动。相反,我们采用以下两种基于可转移性的设计策略来产生局部扰动,从而显著提高查询效率。首先,我们利用模型解释的可转移性来准确地识别干净示例的区分区域。由于判别像素对预测的影响较大,对判别像素进行扰动比对其他像素进行扰动更有效。我们通过预扰动鉴别像素进一步降低对手和目标模型之间交互的复杂性,减少了所需的查询。
在这里插入图片描述

整体结构图

该框架包括两个阶段:预处理和局部攻击。在预处理阶段,给定一个干净的示例,我们确定判别区域(s),这些区域决定了原始样本中对目标模型最重要的部分。本文采用Grad-CAM作为参考模型,得到了一个精确的显著图。由于模型解释的可转移性,这个图也适用于目标模型。然后将显著性进行二值化得到区别区域。然后利用对抗性样本的可转移性,利用参考模型对干净样本进行任意白盒对抗性攻击的局部扰动,生成初始对抗性样本。如果初始的对抗性例子能够骗过目标模型,那么我们就成功地实现了目标。另外,我们利用局部黑盒扰动阶段以黑盒方式进一步扰动初始对抗示例。
在这里插入图片描述

预处理阶段

预处理的目的是识别局部扰动的攻击区域,提高局部黑盒扰动阶段的最终查询效率。给定一个初始样本,首先根据模型解释的可转移性确定原始样本的判别区域。在识别出判别区域后,不直接查询目标模型,而是基于对抗样本的可转移性来产生初始对抗样本,以减少查询次数,这是一种简单有效的白盒攻击,不会干扰所有像素,而是只改变区别像素。预处理实现局部区域定位,还可以产生一个初始对抗样本,减少在后续的黑盒攻击中的查询次数。
在这里插入图片描述

局部黑盒扰动阶段

这一阶段可以使用梯度估计,也可以使用随机搜索

梯度估计

在这里插入图片描述

随机搜索

如果使用随机搜索的话,从最初的对抗样本开始,迭代产生最终的对抗样本,首先向初始对抗样本中随机添加扰动ε3产生K个候选对抗样本。然后把K个候选对抗样本输入目标模型以检验每个修改在候选样本中的重要性。根据目标模型的反馈,我们对K个候选样本进行排序,然后结合前R(R<K)个较好候选样本的所有扰动来更新初始对抗样本,使之成为一个新的候选样本。重复上述过程,直到所有候选样本都可以成功欺骗模型或达到最大迭代次数。

Experiments

数据集采用谷歌随机收集的410张图片,包括动物、交通工具盒交通标志。本文的方法适用于各个模型。本文选择Inception-V3作为目标分类器,ResNet50作为参考分类器。在黑盒扰动部分,分别选取了这几种方法与本文的方案做比较,从而验证本文方法的效果。
在这里插入图片描述
对抗样本的好坏主要有三个标准来衡量,评价标准:NoQ(查询数量)、SR(成功率)、QoAE(对抗样本的质量)
NoQ量化了在整个攻击过程中对目标模型的查询次数,NoQ值越小表示查询效率越高。
SR衡量成功欺骗目标模型8次的次数占攻击总次数的比例。
QoAE衡量干净示例和相应的敌对示例之间的相似性。本文使用MAD和PSNR来量化QoAE。PSNR值越大,相似度越高。MAD值越小表示相似性越高。

Overall Results

在这里插入图片描述

Impact of Parameters

在这里插入图片描述
在这里插入图片描述

Impact of Discriminative Areas

在这里插入图片描述

Impact of Reference Model

在这里插入图片描述

Conclusion

本文探讨了如何在有限的查询开销下发起局部黑盒攻击,提出了一种新的黑盒查询效率框架来产生局部扰动。只扰动干净例子的区别区域,因为它们对模型的预测有更大的影响。在进行黑盒攻击的时候不是从零开始扰动一个干净的样本,而是先用白盒攻击产生一个初始对抗样本,以减少查询次数。实验结果表明,在参考模型性能有限的情况下,该框架能够降低查询开销,提高视觉效果和攻击成功率。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值