论文地址:A Few Seconds Can Change Everything: Fast Decision-based Attacks against DNNs | IJCAI
Abstract
先前的研究已经证明了深度学习模型对基于决策的对抗攻击的脆弱性,这种攻击仅基于来自输出决策的信息来制作对抗样本。然而,现有的基于决策的攻击有两个主要限制,即昂贵的查询成本和易于检测。本文提出了一种针对黑盒模型的新的、高效的基于决策的攻击,称为FastDrop,它只需要少量查询,并且在强大的防御下可以很好地工作。创新的关键在于,与现有的依赖于梯度估计和加性噪声的对抗攻击不同,FastDrop通过在频域中丢弃信息来生成对抗样本。在三个数据集上进行的大量实验表明,与SOTA攻击相比,FastDrop可以在相同的扰动水平下逃脱最先进(SOTA)黑盒防御的检测,并将查询数量减少13~133倍。FastDrop只需要10~20个查询就可以在1秒内对各种黑盒模型进行攻击。此外,在百度和腾讯提供的商业视觉API上,FastDrop平均10次查询的攻击成功率(ASR)达到100%,这对现实世界的应用程序构成了真实而严重的威胁。
Insight
目标:攻击者应该用更少的查询来优化样本。扰动也应该很小。
最近,一些研究考虑了高频域的扰动。这让我们了解到,我们可以在高频域中操纵对抗样本。此外,Wang等人[2020a]认为高频信息有助于DNN的高精度。由于图像的高频信息对DNN的功能很重要,如果我们丢弃一些良性样本的高频信息,DNN可能会做出错误的预测。与添加扰动不同,丢弃信息的规模是有限的,这意味着只需几步就可以丢弃所有信息。通过这种方式,我们可以将查询限制在有限的数量内。此外,与低频信息相比,高频信息的变化不会对样本的视觉效果产生太大影响,这意味着扰动不会太大。因此,我们考虑放弃高频信息作为我们的解决方案。
FastDrop: Attack Strategy
本文考虑了一种更实用的基于决策的攻击场景,其中攻击者只能使用有限数量的查询,例如100。攻击者的目标是制作一个对抗样本x*,并根据返回的标签进行一些查询,以逃避防御。本文关注的是非目标攻击。
图3:FastDrop生成对抗样本的两个步骤的简单说明。(a) OFD:对良性输入进行FFT,并按顺序丢弃频谱的一些块。(b) PDB:恢复一些块,同时保持样本对抗性
如:3所示,FastDrop由两个阶段组成:有序频率下降和渐进双回溯。
- 有序频率下降(OFD)。我们按照重要性的顺序逐渐将频谱块设置为零。频率信息的丢失意味着该样本对DNN的有用信息较少,从而导致DNN的错误分类。
- 渐进双回溯(PDB)。我们以OFD的相反顺序逐渐恢复频谱的丢弃块,同时保持样本的对抗性。恢复的块意味着对抗样本和原始样本之间有更多的相似性,从而导致更小的扰动。
此外,如果查询限制不太受限制,我们可以在对抗样本和原始样本之间采用二进制搜索,以进一步减少扰动。通过一些额外的查询,扰动将更小。
Orderly Frequency Dropping
一般来说,结构的改变会对视觉效果产生比颜色更大的影响,而人眼对颜色更敏感。从空间域到频域有三种主流变换,即离散傅立叶变换(DFT)、离散余弦变换(DCT)和离散小波变换(DWT)。如果我们修改DCT或DWT的频谱,结构信息将受到影响。但是DFT的频谱是由振幅谱和相位谱组成的。如果我们只修改DFT的振幅谱而不改变相位谱,则图像的结构信息不会改变。因此,通过修改DFT的振幅谱来制作对抗样本往往会引起较小的扰动。我们选择了DFT并采用了它的快速实现,即FFT,因为它可以有效地区分高频和低频。形式上,一维DFT和逆DFT(IDFT)由下式给出:
我们首先对输入图像进行FFT处理,得到相应的频谱。然后将振幅谱拆分为中心对称的边界形状块,如图3所示。由于FFT的幅度谱是中心对称的,修改中心对称块不会影响其他块,因此是可控的。具体来说,每个块中的边界宽度为1,也就是说,224×224的频谱将被分割成112个块。对于每个块,我们进行全局平均池化以获得用于排序的值。在频域中,小的值通常对应于高频信息。因此,具有最小值的块首先被设置为零。然后将修改后的幅度谱和相位谱变换到空间域,输出具有小扰动的图像。然后,使用图像来查询模型。如果预测与其原始标签不同,我们就成功地制作了一个对抗样本。否则,我们将重复上述步骤,并将更多块设置为零以丢弃信息。该过程如算法1所示。在实践中,由于排序靠前的块包含的信息太少,我们在早期阶段的每次迭代中将更多的块设置为零。
Progressive Dual Backtrack
简单地丢弃信息可能会导致过大的扰动。此外,对于一些图像,即使在丢弃了振幅谱的所有信息之后,尽管概率很小,但它们仍然不是对抗性的。
为了解决这两个问题,我们提出了渐进双回溯,它由两个具有相同过程的连续回溯组成。回溯的基本操作如图3(b)所示。对于通过OFD处理的图像的幅度谱,一些块被设置为零。我们根据OFD中的相反顺序来恢复这些块的值。在一个块被恢复之后,我们检查对应的图像是否是对抗性的。如果没有,我们将此块再次设置为零。否则,我们保留更改并尝试恢复下一个零值块,该零值块在OFD中的前一个恢复块之前被设置为零。在第一次回溯之后,我们可以恢复很多块,同时保持图像的对抗性。通过这种方式,对抗样本和原始样本更加相似,从而减少了扰动。在这个过程中,那些不能通过简单地在OFD中丢弃信息而变得对抗性的图像,尽管很少,但由于一些无法解释的依赖性,将变得对抗性。此外,我们再次进行回溯,这可以恢复一些额外的块,进一步减少扰动。