Cross-shaped Adversarial Patch Attack论文分享(侵删)

原文地址:https://doi.org/10.1109/TCSVT.2023.3307150

author={Yu Ran and Weijia Wang and Mingjie Li and Lin-Cheng Li and Yuan-Gen Wang and Jin Li}
title={Cross-shaped Adversarial Patch Attack}

一、介绍

本文中,我们专注于基于分数的黑盒场景,并提出了一种新的十字形对抗补丁攻击(CSPA)范式。它具有全局扰动能力,同时保持了攻击的连续性,消除了现有补丁攻击的弱点。具体来说,我们的十字形对抗补丁被设计为两条线段,它们在中点处相互垂直。为了改善补丁区域的全局影响,同时保持对修改像素的约束,这两条线段足够细和长,几乎到达输入图像的四个角。然后,我们同时优化十字形补丁的内容和位置的目标函数的基础上,通过迭代随机搜索算法。最后的对抗示例由具有最佳内容和位置的对抗补丁构造。以最大限度地提高这一全局属性。对ImageNet、TinyImageNet、CIFAR-100和CIFAR 10等四个广泛使用的数据集进行了全面评估。将我们的十字形路径范例应用于最先进的白盒攻击LOAP ,也比LOAP的原始版本和新提出的白盒攻击[45]表现得更好。

二、方法介绍

(1)对抗攻击

给定原始图像x 0 ∈ [0,1]d及其对应的真标签y 0 ∈ {0,...,k − 1},其中d = c × h × w是输入图像的维数,k是类别数。注意,c、h和w分别表示输入图像的通道数、高度和宽度。

其中扰动η ∈ Rd由lp-范数有界,以保持x0的语义内容。l2和l∞攻击的目标是改变输入图像的所有像素,这些像素具有不可见的扰动。相比之下,l0仅扰动具有可见扰动的一小部分像素,这通常通过对扰动像素的数量的约束来实现。

针对损失函数L求解以下约束优化问题:

y′表示x0的真实标签(y0),用于非目标攻击,或者表示目标类t,用于目标攻击。L的最小化导致受害者模型的期望误分类。

(2)十字形补丁攻击

基于块的攻击旨在通过仅修改输入图像的小而连续区域中的像素来诱导误分类。具体地,对抗补丁可以由补丁内容(即,扰动)δ ∈ [0,1]d和表示贴片形状和位置的二进制掩码m ∈ {0,1}d。然后,被对抗补丁(m,δ)扰动后的图像被正式定义为:

其中m表示补丁形状和位置,δ表示补丁内容,并且x 0是原始输入图像。因此,用于为具有标签y '的图像x 0找到对抗补丁的补丁攻击可以建模如下:

其中,L是对抗性损失,并且||m||0 <0是用于控制补丁规模以保持语义的有界约束。||.||表示非零元素的数量,这是对抗性攻击任务中常用的设置。m中1的元素的分布基本上代表了补丁的形状和位置。为了使补丁的形状是连续的,m中的每个1个元素必须与至少另一个1个元素连接。

基于这个十字形补丁,我们需要计算相关的二进制掩码m。假设输入图像的左上角的像素的位置表示正交坐标的原点(0,0)。那么右下角的像素的坐标是(w,h)。我们将两条线段交点的坐标表示为(p,q)。如果线段的宽度s设置为1,那么我们可以相应地实现(p,q)的可行范围,其中p ∈ [l/2,h−(l/2)],q ∈ [l/2,w−l/2]。交叉点的位置基本上代表了整个十字形贴片的位置,需要对其进行优化。基于(p,q),我们可以使用以下函数计算二进制掩码m:

其中mi,j表示坐标(i,j)处的掩码值。

(a)一个例子制作的一个脂肪和短的十字形补丁(小全球化程度)。(b)一个例子制作的一个薄而长的十字形补丁(大全球化程度)。(c)二进制掩码m的说明。

我们使用两个损失函数:基于边缘的损失(6)和交叉熵损失(7)。具体来说,我们分别选择函数(6)用于非目标攻击和函数(7)用于目标攻击。

(3)算法

首先,我们通过使用初始化方法初始化补丁内容δ0和位置m0(步骤2)。由于我们与DNN集成的目标函数是非凸的,因此良好的初始化通常有助于找到更好的解决方案。一个补丁的例子前构造使用Eq3与初始化的δ0和m0(步骤3)。然后,我们使用x查询受害者模型F,并进一步计算带有标签y '的损失值J0(步骤4)。请注意,y′是x0的真实标签,用于非目标设置,目标标签t用于目标设置。然后,我们初始化到目前为止找到的最佳解决方案,即,δbest、mbest、Jbest(步骤5)。

接下来,执行迭代优化,其中我们利用两种不同的采样方法来更新补丁内容和位置,以便完全搜索解空间(步骤6-15)。由于补丁内容空间比位置空间大得多(即,交点的位置),则补丁内容的更新应该比位置更频繁。具体地,在更新补丁内容δ的每v-1次迭代之后更新补丁位置m一次,其中v是采样间隔(步骤8-11)。在每次迭代中,我们用新的补丁内容和位置构建新的扰动图像,然后通过查询受害者模型F来计算与新候选相关联的新损失J(步骤12-13)。如果J小于Jbest,则使用新的补丁内容和位置来更新到目前为止找到的最佳解决方案(步骤14-15)。如果查询预算(即,如果满足最大迭代I),则通过将最佳补丁内容和位置应用于x0来实现最佳对抗示例x*(步骤16)。

初始化(步骤2):一种方法是通过在线段上的随机位置处用随机大小的单色条带重复地覆盖这两条线段来初始化这两条线段。这些单色条的颜色被初始化为随机RGB值,其被限制在{0,1}c中(即,图像域的边界[0,1]c)。另一种方法是从{0,1}c中均匀地选择十字形补丁中的每个像素的颜色。在贴片位置方面,我们从交点(p,q)的可行区间中随机选择一个位置。

采样(步骤9):我们设计了一种特定的采样方法来更新补丁内容。我们首先探索内容空间广泛的搜索,然后利用最佳的解决方案 局部搜索。通过这种方式,我们可以找到更好的补丁内容,同时显着加快搜索。特别是,我们根据与查询数量相关的特定分布来更新内容。在第i个查询中,我们生成长度为li、宽度为s的单色条纹,然后将它们任意叠加在补丁区域上。单色条纹的颜色从{0,1}c中随机选取。li是从由Square Attack激发的衰变调度机制中计算出来的[24]:

||m||/c是每个通道中由十字形贴片占据的像素数。

三、实验设置

数据集:包括ImageNet [55],TinyImageNet,CIFAR-100 [56]和CIFAR-10 [56]。

模型:利用各种受害者网络(victim networks)进行评估。具体来说,对于ImageNet,我们使用了四个受害者模型,包括ResNet 50 [1],VGG 16 [57],VGG 16 bn [57]和Inception v3 [46]。ImageNet的网络是由torchivsion预先训练的[58]。在TinyImageNet方面,选择ResNet 50和VGG 16 bn作为目标模型。CIFAR-100选择ResNet 50和DenseNet 121 [59]。对于CIFAR-10,我们基于CNN [8]和VGG 16构建受害者模型。

比较方法:对于黑盒场景,我们将提出的CSPA与四种最先进的基于补丁的攻击方法进行比较,包括HPA [26],MPA [27],TPA [27]和Patch-RS [29]。在白盒攻击中,我们选择了两种最先进的方法,位置优化对抗补丁(LOAP)[28]和可变形补丁攻击(DPA)[45]进行比较。

评估指标:攻击成功率(ASR),和查询的数量代表查询效率。

对防御模型的攻击性能,以进一步证明我们提出的CSPA的有效性。对于评估,我们使用FPR和召回指标,其正式定义为:

其中FP和TN分别表示防御模型错误和正确预测的对抗性示例的数量。TP和FN分别表示被防御模型正确识别和错误识别的干净图像的数量。

CSPA的性能随着长度l的增加而提高,并且在ASR和平均查询方面,当l在200左右时达到最佳。因此,我们将ImageNet数据集上的CSPA设置为l = 200,并将其他相应数据集分别设置为l = 32,25和25。同时,通过这种设置,CSPA保持与Patch-RS相同的稀疏性。

四、实验结论

1.

报告了所有比较方法对所有数据集上不同受害者模型的攻击结果。对于ImageNet,我们可以看到我们的CSPA在所有比较方法中,在非目标攻击和目标攻击的攻击成功率(ASR)和查询效率方面都达到了最佳性能。对于TinyImageNet,我们的方法明显优于竞争对手。特别是,在非目标设置中,CSPA使用约98个平均查询实现了97.71%的ASR,其中ResNet 50的中位数为5。对于CIFAR-100和CIFAR-10,CSPA在所有设置中的所有比较方法中仍然表现最好。

CSPA之所以能取得优异的性能,主要是因为CSPA采用了具有全局性的十字形补丁范式。它本质上是能够引起一个全球化的扰动,同时保持小的补丁和连续的。

2.成功率与成功次数的收敛:

攻击成功率的进展与ImageNet和TinyImageNet上Patch-RS和CSPA在非目标和目标设置下的查询数量。在两种设置中,我们的CSPA在低查询状态下比Patch-RS在所有受害者网络上更快地收敛到高ASR。结果进一步验证了我们的十字形补丁的全球化扰动的重要性,使对抗性的例子具有更强大的归纳能力。

3.CSPA的迁移性

CSPA在迁移性方面大大优于Patch-RS。CSPA的良好可移植性意味着我们的方法有可能为不同的受害者网络制作有效的通用对抗补丁。

4.超参数调整

在我们提出的方法中只有两个超参数。一个是µ0,它调节用于贴片构造的条带的初始长度。另一种是控制更新补丁位置的间隔频率。

5.白盒攻击

对于三种比较方法,即,LOAP [28],DPA [45],CS-LOAP,我们使用反向传播来计算梯度,然后使用梯度来更新补丁内容。

CS-LOAP在非目标和目标情况下的ASR和查询效率方面都明显优于LOAP和DPA。补丁的全局性在白盒攻击中也起着重要的作用。我们可视化了LOAP、DPA和CS-LOAP生成的对抗性示例。

6.攻击防御模型

我们评估了攻击性能的防御模型。我们采用两种众所周知的防御模型进行评估,JPEG压缩和位深度减少(BR)。对于攻击模型,采用Patch-RS 和我们的CSPA。召回指标评估的两个防御模型,而FPR指标评估的防御和攻击模型。Patch-RS和CSPA使用相同的查询预算(即,2000),用于同一数据集内的图像进行公平比较。

对于FPR度量,FPR值越低,表示防御能力越好,而FPR值越高,表示攻击性能越好。从结果可以看出,CSPA在面对防御模型时仍然取得了非常好的攻击性能,大幅优于Patch-RS。

7.消融研究

初始化:1)补丁的每个像素的颜色是从{0,1}c中均匀选择的。2)这两条线段被单色条带反复覆盖。

报告了这两种初始化方案在非目标设置中的性能。在大多数受害者模型上,两种方案之间的ASR差异非常小。然而,第二种方案具有略高的ASR和较小的查询消耗,因此,被选为我们的默认初始化策略。这意味着一个好的初始化可以自然地有助于最终的性能,特别是对于非凸优化算法。

8.衰变调度机制

在每次优化迭代中,衰减的μi用于控制条带长度li。我们使用常数µi运行CSPA,而不是在相应的迭代中将其值减半,然后将此版本与使用衰减µi的版本进行比较。

我们的衰减调度机制本质上扩大了补丁内容的搜索空间,从而能够找到更好的解决方案。

9.补丁的形状

我们首先构造两个补丁基线的形状分别在网格和正方形,第三个基线,我们将原始的十字形贴片旋转45度,以形成一个新的变体,表示为Cross-R。我们最初的版本是指交叉O(即,CSPA)。

交叉O实现了最高的ASR与最小的查询消耗的所有受害者模型,表明全球化的补丁更有可能诱导受害者网络误分类相比,本地化的补丁。Cross-R也获得了有竞争力的性能,并击败了其他两个基线,这主要是由于全局属性。

我们可视化了具有不同补丁形状的对抗补丁示例及其从ImageNet上ResNet 50中间层提取的相关特征图。从网络的特征图中,我们可以看到,我们的十字形补丁能够引起一些明显的全局化噪声,而其他两个补丁导致局部化噪声,从而证实了上述性能分析。

10.斑块宽度

我们的十字形斑块由两条线段组成,线段的宽度(s)和长度(l)决定了它的全球化程度。较小的宽度s(即,长度l)越长,全球化程度越大。

在非目标情况下,ImageNet上不同宽度的CSPA的性能如图所示。我们观察到,我们的方法的性能下降的宽度w从1增加到8方面的ASR和查询效率。结果表明,补丁的全球化程度越大,攻击算法的性能越好。

11.损失函数

在ImageNet上的无目标和有目标攻击中,具有边际损失和交叉熵损失函数的CSPA的性能结果。

在非目标设置中,这两个功能的性能取决于受害者模型,对其中任何一个都没有特定的偏好。但是,在目标情况下,交叉熵损失函数产生更好的攻击性能的所有模型相比边际损失。因此,我们在所有实验中采用非目标设置的边际损失和CSPA目标情况的交叉熵损失。

五、结论

我们提出了一种高效和有效的黑盒攻击方法与一种新的十字形补丁范例(CSPA)。十字形面片由两条相交且在中点处相互垂直的线段组成。这两条线段足够细和长,四个端点指向输入图像的四个角。因此,它具有全球化的扰动能力,使受害者网络更容易被误导相比,局部补丁方法。然后,我们开发了一个有效的随机搜索为基础的算法来优化十字形补丁的内容和位置迭代。我们对我们提出的方法和现有的基于补丁的方法进行了全面的实验,对不同的网络在黑盒场景下的四个数据集。实验结果表明,CSPA显著提高了攻击成功率和查询效率。此外,我们将十字形补丁应用于白盒攻击算法,仍然达到了最先进的性能。

  • 14
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值