Consistency-Sensitivity Guided Ensemble Black-Box Adversarial Attacks in Low-Dimensional Spaces
阅读笔记
文章信息:Yuan, Jianhe, and Zhihai He. "Consistency-Sensitivity Guided Ensemble Black-Box Adversarial Attacks in Low-Dimensional Spaces." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021.(ICCV2021) (此文章与上篇文章都是减少查询次数的,并且此文章用了上面文章19年(NeurIPS会议版本)做对比实验)
Abstract
存在的问题:现有攻击方法直接在极其高维空间中产生的对抗噪声,要对受害者模型查询数百甚至数千次。
提出的方法:提出了一种低维空间中一致性和敏感性引导集成攻击方法(CSEA)。具体来说,将目标模型线性分解成多个具有不同网络结构的代理模型,在这些代理模型上共同构建低维扰动,最后以非常少的查询次数估计高维空间扰动。
实验结果:大量实验结果表明,提出的方法显著减少了对受害者网络的查询数量,同时保持了很高的成功率,大大优于现有的黑盒攻击方法。
1、Introdution
黑盒攻击性能的评价指标有两个:1、查询模型的次数;2、攻击准确率。所以黑盒攻击的目标是用很少的查询模型的次数获得尽可能高的准确率。
核心目标:希望能够显着减少黑匣子攻击的查询数,同时保持非常高的成功率。
核心挑战:黑盒攻击中,查询的次数是随着维度的增加成正比的。
应对挑战:提出了一种低维空间中一致性和敏感性引导集成攻击方法(CSEA),用于高效搜索和估计高维模型空间中的受害者模型。
核心想法:
1、为了防止搜索过程陷入局部极小值,构造了一个具有多种结构的代理模型集合,在高维模型空间中执行协作搜索,然后,使用这些代理模型的学习线性组合来估计或近似受害者模型,这些代理模型共同构造并向受害者模型提交随机和稀疏查询。
2、在原本的输入图像上加随机块掩膜,形成对抗样本。基于这些高度多样化查询的反馈结果,代理模型能够在模型空间中有效地学习和进化。由一致性约束引导,他们的学习组合能够使用非常少量的查询非常有效地近似受害者网络。
3、分块随机和稀疏查询为估计输入图像的攻击敏感度图提供重要信息,基于敏感图,可以对攻击执行基于块的局部细化,以进一步提高其成功率。
2、Related Work and Unique Contributions
相关工作介绍基本跟上一篇文献一样的,将基于转移和基于查询的黑盒攻击列举一下,然后表示这些现有的方法的查询次数都太多了。文中还提到PGD攻击是白盒攻击最强的。
Unique Contributions:
⭐ 这项工作旨在弥补差距,并解决现有的基于转移和基于搜索方法的主要限制,探索了一种在高维模型空间中搜索和估计黑箱受害者模型的新方法;
⭐ CSEA方法能够在低维参数空间中有效地执行搜索和优化,从而显着减少查询数量;
⭐ 如果假设攻击者有记忆,能够记住从先前输入图像中查询的信息,则可以进一步显着减少所需查询的数量。
3、 Method
3.1 Problem Formulation(问题描述)
似乎没什么东西。
3.2 Constructing Ensemble Randomized Searches(构建集成随机搜索)
其中,
Q
k
t
Q^t_k
Qkt是每个小的替代模型,通过公式4,将这几个小的替代模型集成成一个完整的替代模型来近似受害模型
T
T
T,在本实验中
K
K
K=3,文中没有提到
a
k
t
a^t_k
akt是什么。并且文中提到,实验表明,比较小的
K
K
K,比如k=2或者3,是有效的。(这里k没有大写感觉是应该是笔误)。
为了训练这些替代模型,用组合的替代模型
Q
t
Q^t
Qt来生成对抗样本
z
t
z^t
zt;为了确保成功训练和训练样本的多样性,提出加入块状掩模以调节对抗性噪声。将输入图片划分为
B
H
B_H
BH*
B
W
B_W
BW份,在本实验中,将
B
H
B_H
BH和
B
W
B_W
BW设置为16。
M
α
t
M_\alpha^t
Mαt表示迭代t次随机生成的二进制掩码,并且在
α
\alpha
α *
B
H
B_H
BH *
B
W
B_W
BW块中都是1,其他的块中都是0,在本实验中设置
α
\alpha
α为0.15。
基于这种随机块,可以将现有的攻击方法改写。例如FGSM方法:
(i,j)表示在图片中块的位置,
s
t
s^t
st是攻击的目标分数。试验机表明,如果用随机快的方法,需要少量额外的迭代来实现输入图像的成功攻击。对应的对抗性噪声为:
3.3. Learned Linear Composition of Surrogate Models(学习替代模型的线性组合)
在本节,将解释提出的CSEA方法如何成功学习这些代理模型,从而使其线性组合能够非常有效地近似黑箱中的受害者模型。我们拿现有的模型,在这项工作中,我们创建了一部小型K代理模型,具有随机网络结构。我们首先用现有的模型,比如:Reset或InceptionNet模型。随机网络结构是通过在层之间添加随机连接并在现有层中执行随机丢弃的随机连接。如下图所示:
我们希望这些代理模型的线性组合能够在(4)中所述,能够在对抗攻击下成功捕获受害者网络T的行为。
需要注意:替代模型只可以输入一个图像作为当前的测试图像,为了确保和其他黑盒攻击公平比较,我们假定其他的训练图像是不可用的。用一批已经生成好的对抗样本输入受害者模型,输出为:
将作为训练数据训练几个维度低的代理模型,所以几个代理模型的输出分数
Q
k
t
Q^t_k
Qkt(
x
t
^
\hat{x^t}
xt^)是接近于目标模型的输出
T
T
T(
x
t
^
\hat{x^t}
xt^)。(因为(
x
t
^
\hat{x^t}
xt^,
y
t
y^t
yt)表示目标网络在对抗性攻击下的行为)
攻击损失:
最小化合成系数:
这就成为了最小均方误差(LMSE)问题,其解为:
只要得到了合成系数,就可以得到替代模型的线性组合
Q
t
Q^t
Qt。
对抗一致性约束:我们的目标是想要替代模型可以等价受害者模型
T
T
T,这意味着所有代理模型都应该收敛到受害者网络模型。换句话说,他们应该对不同的对抗攻击分享相同的反应。用对抗一致性约束来解决。(在执行对抗一致性约束时,我们不需要查询受害者网络,这在我们的算法设计中非常重要,以减少查询复杂性。)
一致性约束实现过程:用替代模型
Q
t
Q^t
Qt生成一个额外的对抗样本(使用不同的块掩码和攻击目标为
S
t
S^t
St),定义一致性损失函数(不同替代模型的输出值)为:
将一致性损失函数与前面的攻击损失函数结合:
用这个总的损失函数来训练结合之后的替代模型:
Q
k
t
Q^t_k
Qkt。图4显示代理模型训练过程的收敛性。该图显示了测试图像、它们的攻击损失、一致性损失以及每个测试图像的受害者模型的目标类分数。
3.4. Sensitivity-Guided Local Refinement of Attack
研究发现,大概有3%~7%的图片虽然用替代模型生成对抗样本,但是其实并没有成功。为了解决这个问题:我们建议利用现有随机查询的结果和学习到的代理模型来生成敏感度图,并对对抗性噪声进行引导性局部细化。我们的想法是:攻击应该局部集中在那些对网络决策或图像识别结果贡献最大的图像区域。我们发现:在对抗性攻击期间,这些图像区域通常会经历相对较大的攻击,特别是较大的梯度响应。
基于这个发现,就在代理网络学习随机产生对抗性噪声过程中,如第3.3节所述,我们记录每个图像区域的平均梯度响应用来画热敏图。
解释为什么要用随机稀疏块掩模查询来生成对抗样本的原因(为什么要随机稀疏):图5中红色的曲线表示如果我们假设相邻噪声是独立的,生成的攻击分数随着查询的次数增加而变小的曲线;蓝色曲线显示了这组相邻敌对块噪声的实际累积攻击分数。
两条曲线的显著差异表明相邻块噪声之间具有高度相关性。它的相关性将为评估每个对抗性块噪声的贡献或每个图像块的敏感性带来重大挑战。实验发现:将掩膜
M
α
t
M_\alpha^t
Mαt随机和稀疏化后,块之间的相关性会显著降低。从而成功形成敏感图。以FGSM算法为例:
上面那张图是特征图的公式,公式11修改后特征图。
A
(
i
,
j
)
A(i,j)
A(i,j)即为所需的敏感图。我们将遵循敏感性的顺序,使用概述[9]的方法进行局部基于块的对抗噪声的细化,将噪声进行分块,对于每个块试着用-1乘上噪声块来翻转噪声,如果此翻转的噪声块提高了跟踪性能,则会使受害网络的输出分数偏离其正确值,则保留翻转后的噪声块,否则保留之前的。
实验结果将证明,这种敏感性引导攻击将能够减少查询次数并提高攻击成功率。
4、Further Discussions
将之前的实验总结了一遍:1、学习线性组合;2、随机查询(增加了训练样本的多样性、和模型的学习性能);3、稀疏化(进一步提高攻击成功率)。
5、 Experimental Results
实验结果:
一、在Cifar10上的结果:
二、在ImageNet上的结果:
三、消融实验:
5.4. Success rates for Different Number of Queries
6、 Conclusion
最大的贡献是将多个替代模型通过线性组合来形成一个总的替代模型去近似目标模型。此方法能够用比现有方法更少的查询次数去获得比现有方法更高的攻击成功率。