NumbOD: A Spatial-Frequency Fusion Attack Against Object Detectors
本文 “NumbOD: A Spatial-Frequency Fusion Attack Against Object Detectors” 提出NumbOD,一种全新的针对目标检测器的模型无关空间-频率融合攻击方法。它通过双轨攻击目标选择策略选取高质量边界框作为攻击目标,从空间和频率两个维度设计攻击。在空间域,对预测框坐标和分类结果进行干扰;在频率域,通过离散小波变换等手段扰乱图像高频信息。在九个目标检测器和两个数据集上的实验表明,NumbOD 攻击性能强、隐蔽性高,在与多种先进攻击方法的对比中表现更优,且能有效抵抗多种防御机制。
摘要-Abstract
With the advancement of deep learning, object detectors (ODs) with various architectures have achieved significant success in complex scenarios like autonomous driving. Previous adversarial attacks against ODs have been focused on designing customized attacks targeting their specific structures (e.g., NMS and RPN), yielding some results but simultaneously constraining their scalability. Moreover, most efforts against ODs stem from image-level attacks originally designed for classification tasks, resulting in redundant computations and disturbances in object-irrelevant areas (e.g., background). Consequently, how to design a model-agnostic efficient attack to comprehensively evaluate the vulnerabilities of ODs remains challenging and unresolved. In this paper, we propose NumbOD, a brand-new spatial-frequency fusion attack against various ODs, aimed at disrupting object detection within images. We directly leverage the features output by the OD without relying on its internal structures to craft adversarial examples. Specifically, we first design a dual-track attack target selection strategy to select high-quality bounding boxes from OD outputs for targeting. Subsequently, we employ directional perturbations to shift and compress predicted boxes and change classification results to deceive ODs. Additionally, we focus on manipulating the high-frequency components of images to confuse ODs’ attention on critical objects, thereby enhancing the attack efficiency. Our extensive experiments on nine ODs and two datasets show that NumbOD achieves powerful attack performance and high stealthiness.
随着深度学习的发展,具有多种架构的目标检测器(ODs)在自动驾驶等复杂场景中取得了显著成功。以往针对目标检测器的对抗攻击主要集中于针对其特定结构(如非极大值抑制(NMS)和区域提议网络(RPN))设计定制化攻击,虽取得了一定成果,但同时也限制了其可扩展性。此外,大多数针对目标检测器的攻击方法源自最初为分类任务设计的图像级攻击,这导致在与目标无关的区域(如背景)进行冗余计算和产生干扰。因此,如何设计一种与模型无关的高效攻击方法来全面评估目标检测器的漏洞,仍然是一个具有挑战性且尚未解决的问题。在本文中,我们提出了NumbOD,这是一种全新的针对多种目标检测器的空间-频率融合攻击方法,旨在干扰图像中的目标检测。我们直接利用目标检测器输出的特征,而不依赖其内部结构来生成对抗样本。具体而言,我们首先设计了一种双轨攻击目标选择策略,从目标检测器的输出中选择高质量的边界框作为攻击目标。随后,我们使用定向扰动来移动和压缩预测框,并改变分类结果以欺骗目标检测器。此外,我们专注于操纵图像的高频分量,以分散目标检测器对关键物体的注意力,从而提高攻击效率。我们在九个目标检测器和两个数据集上进行的大量实验表明,NumbOD具有强大的攻击性能和高隐蔽性。
引言-Introduction
该部分主要介绍研究背景、当前研究存在的问题以及本文提出的 NumbOD 攻击方法,具体内容如下:
- 深度学习与对抗攻击研究现状:深度学习推动了计算机视觉任务发展,如交通标志识别、行人重识别和医学图像分割等。但研究表明深度神经网络(DNNs)存在脆弱性,攻击者能通过微小扰动使模型误分类。目前针对分类任务的对抗攻击研究较多,而目标检测任务的对抗攻击研究较少。
- 目标检测对抗攻击的局限性
- 适用性受限:现有针对目标检测器的对抗攻击方法常依赖特定模块,如 DAG 针对基于 RPN 的模型,RAP 针对 RPN 预测框和分类设计损失函数,这些方法对具有特定架构特征的检测器有效,但可扩展性差,无法应用于不同架构的模型。
- 攻击效率低:多数攻击方法源于为分类任务设计的图像级攻击,在非关键对象区域(如背景)进行优化攻击,导致计算冗余,且难以同时有效干扰有意义的对象和无关背景元素,影响攻击性能。
- 本文的研究内容:提出 NumbOD,一种全新的针对目标检测器的模型无关空间-频率融合攻击方法。该方法利用目标检测器的最终输出特征生成对抗样本,采用双轨攻击目标选择策略提高攻击效率,并从空间和频率两个领域设计针对性攻击。在多个目标检测器和数据集上的实验显示,NumbOD 攻击性能强大且隐蔽性高。
图1:针对目标检测器的对抗样本概述
相关工作-Related Work
该部分主要介绍了目标检测器的分类,以及针对目标检测器的对抗样本相关研究,为后续提出的 NumbOD 方法做了铺垫,具体内容如下:
- 目标检测器:现有目标检测方法主要分为两阶段和单阶段两种范式。
- 两阶段检测器:如 R-CNN、Faster R-CNN 和 Cascade R-CNN 等,这类检测器先通过区域提议网络(RPN)生成候选区域,然后对这些区域进行精确的分类和回归。
- 单阶段检测器:像 YOLO 系列、VFNet 和 TOOD 等,它们直接在整个图像上通过单次评估步骤预测目标类别和边界框坐标。不同的检测器基于其独特的模块在目标检测任务中取得成果,同时也具有不同的漏洞。
- 目标检测器的对抗样本
- 对抗样本分类:对抗样本用于展示 DNNs 的脆弱性,现有对抗样本可分为基于噪声和基于图块的方法。基于噪声的方法隐蔽性高,基于图块的方法灵活性强但易被检测,本文仅考虑基于噪声的对抗方法。
- 目标检测对抗攻击研究现状:针对目标检测的对抗攻击研究面临挑战,因为目标检测包含回归和分类子任务。现有一些方法针对特定模型有一定攻击性能,但扩展性受限,如 DAG、RAP 等。部分研究探索设计模型无关的对抗攻击,如 TOG,但仍存在局限性,无法攻击部分新型检测器。此外,为减轻对抗样本的影响,也提出了多种防御策略,包括数据预处理、剪枝、微调以及对抗训练等 。
方法-Methodology
问题表述-Problem Formulation
该部分主要对目标检测任务进行数学定义,并阐述了针对目标检测器的对抗攻击威胁模型,具体内容如下:
- 目标检测任务定义:目标检测是计算机视觉中的基础任务,包含分类和回归两个子任务。其输出为目标对象的预测边界框、相应的分类标签以及分数。给定图像 x ∈ D x\in D x∈D 输入到目标检测器 f ( x ) ∈ R N × ( 4 + 1 ) f(x)\in \mathbb{R}^{N\times(4 + 1)} f(x)∈RN×(4+1),输出包含边界框 B n B_{n} Bn(包含左上角和右下角坐标)、预测标签 Y n Y_{n} Yn( n = 1 , 2 , … , N n = 1, 2, \ldots, N n=1,2,…,N )以及分类分数 c n ∈ [ 0 , 1 ] c_{n}\in[0, 1] cn∈[0,1].
- 威胁模型:假设攻击者可访问白盒模型和数据集,目的是设计对抗样本使目标检测器失效。具体做法是构造精心设计的对抗噪声 δ \delta δ 添加到输入图像 x x x 上,得到对抗样本 x a d v = x + δ x^{adv}=x+\delta xadv=x+δ,将其输入目标检测器以改变原始输出,如使边界框移动或消失、目标对象的预测类别改变或原始分类分数降低。同时,要求噪声 δ \delta δ 足够小,肉眼难以分辨,以避免对抗样本被轻易检测到,通常通过对 l p l_{p} lp 范数设置上限 ϵ \epsilon ϵ 来约束,公式为 max δ E x ∼ D [ f ( x + δ ) ≠ f ( x ) ] , s . t . ∥ δ ∥ p ≤ ϵ \max _{\delta} \mathbb{E}_{x \sim \mathcal{D}}[f(x+\delta) \neq f(x)], s.t. \| \delta\| _{p} \leq \epsilon maxδEx∼D[f(x+δ)=f(x)],s.t.∥δ∥p≤ϵ. 输入对抗样本后,可得到对抗预测框 B n a d v B_{n}^{adv} Bnadv、标签 Y n a d v Y_{n}^{adv} Ynadv 和分类分数 c n a d v c_{n}^{adv} cnadv。
关键挑战与思路-Key Challenges and Intuitions
该部分主要分析了为目标检测器设计模型无关对抗攻击时面临的挑战,并阐述了解决思路,具体内容如下:
- 挑战一:攻击对目标检测器特定模块的依赖
- 问题表现:以往针对目标检测器的攻击方法常依赖其特定模块来设计,如 RAP 针对 RPN 模块设计的攻击对基于 RPN 的检测器效果显著,但由于单阶段检测器没有 RPN 结构,RAP 对其攻击无效。同样,为分类任务设计的 FGSM、DAG 和 PGD 等方法也无法直接应用于单阶段模型,这大大限制了攻击的泛化能力。
- 解决思路:利用目标检测器的最终输出特征生成对抗样本,可避免对特定模块的依赖。然而,目标检测器生成的大量边界框使攻击目标不明确,导致计算开销大。因此,提出双轨攻击目标选择策略,分别从分类和回归任务的角度,独立选择 top-k 个高分预测框作为攻击目标。在回归任务中,选取与真实框 IoU 得分最高的前 k 个预测框;在分类任务中,选取 IoU 得分最高且预测标签与真实标签匹配的前 k 个预测框,以此提高攻击效率,避免次优攻击。
图2:双轨攻击目标选择策略
- 挑战二:对非关键对象的攻击冗余
- 问题表现:大多数现有针对目标检测器的对抗攻击在图像层面优化全局噪声,对目标对象以外的区域(如背景)进行扰动,不仅无法增强攻击效果,还会导致效率低下。
- 解决思路:由于图像的低频分量(LFC)携带图像的主要信息,高频分量(HFC)主要传达细节和噪声,且深度神经网络对图像纹理更敏感。因此,提出选择性地扰乱图像的 HFC,通过放大对抗样本与良性样本在 HFC 上的差异,同时约束 LFC 的差异,干扰模型对关键对象的识别,从而提高攻击效率和隐蔽性。通过在空间和频率域设计融合攻击,针对性地攻击图像关键区域,同时欺骗回归和分类子任务,为生成对抗样本提供高效优化方向,实现对目标检测器的有效攻击。
空间-频率融合攻击-Spatial-Frequency Fusion Attack
该部分介绍了 NumbOD 这种空间-频率融合攻击方法,它由空间协调偏差攻击和关键频率干扰攻击构成,通过双轨策略确定攻击目标,从空间和频率两个维度对目标检测器进行攻击,具体内容如下:
- 攻击整体框架:NumbOD 旨在让目标检测器无法正确检测图像中的物体,其流程包含空间协调偏差攻击和关键频率干扰攻击。基于双轨攻击目标选择策略,为图像中的每个物体分配高质量的边界框作为攻击目标。之后,在空间域通过添加噪声干扰预测框位置和分类结果;在频率域破坏图像关键细节、纹理和边缘,提升攻击效率。NumbOD 的整体优化目标为
J
t
o
t
a
l
=
J
s
a
+
J
f
a
\mathcal{J}_{total }=\mathcal{J}_{sa }+\mathcal{J}_{f a}
Jtotal=Jsa+Jfa,其中
J
s
a
\mathcal{J}_{sa }
Jsa 是空间攻击损失,
J
f
a
\mathcal{J}_{f a}
Jfa 是频率攻击损失。
图3:我们方法的流程 - 空间协调偏差攻击:针对目标检测器输出的边界框位置和分类信息进行攻击,损失由坐标偏移攻击损失
J
l
o
c
\mathcal{J}_{loc}
Jloc 和前景-背景分离攻击损失
J
c
l
s
\mathcal{J}_{cls}
Jcls 组成,即
J
s
a
=
J
l
o
c
+
λ
J
c
l
s
\mathcal{J}_{s a}=\mathcal{J}_{l o c}+\lambda \mathcal{J}_{c l s}
Jsa=Jloc+λJcls.
- 坐标偏移攻击( J l o c \mathcal{J}_{loc} Jloc):针对回归子任务,将预测框坐标向预定义的无意义目标区域(如边缘点(0, 0))调整,使预测框的位置和大小改变,失去检测作用。 J l o c = ∑ n = 1 N J d ( B n a d v , B n t ) / N \mathcal{J}_{loc }=\sum_{n=1}^{N} \mathcal{J}_{d}\left(\mathcal{B}_{n}^{a d v}, \mathcal{B}_{n}^{t}\right) / N Jloc=∑n=1NJd(Bnadv,Bnt)/N,其中 B n t B_{n}^{t} Bnt 是攻击者设计的目标边界框, J d \mathcal{J}_{d} Jd 是Smooth L1损失。
- 前景 - 背景分离攻击( J c l s \mathcal{J}_{cls} Jcls):针对分类子任务,通过最小化图像中物体真实标签的分数,同时最大化背景类别的分数,使图像中的物体特征向背景特征收敛,阻碍准确检测。对于 K 类概率 c n = ( c n 0 , c n 1 , c n 2 , … c n K ) c_{n}=(c_{n}^{0}, c_{n}^{1}, c_{n}^{2}, \ldots c_{n}^{K}) cn=(cn0,cn1,cn2,…cnK),增强背景分数 c n K c_{n}^{K} cnK,降低对应真实标签分数 c n g t c_{n}^{gt} cngt,优化过程表示为 J c l s = ∑ n = 1 N log ( c n g t ) / N − ∑ n = 1 N log ( c n K ) / N \mathcal{J}_{c l s}=\sum_{n=1}^{N} \log \left(c_{n}^{g t}\right) / N-\sum_{n=1}^{N} \log \left(c_{n}^{K}\right) / N Jcls=∑n=1Nlog(cngt)/N−∑n=1Nlog(cnK)/N.
- 关键频率干扰攻击:图像高频分量包含细节、噪声和纹理,低频分量包含图像大致轮廓和整体结构信息。利用离散小波变换(DWT)将图像 x x x 分解为不同分量,包括低频分量 c l l c_{ll} cll、高频分量 c h h c_{hh} chh 以及两个中频分量 c l h c_{lh} clh 和 c h l c_{hl} chl。再通过逆离散小波变换(IDWT),选择低频分量和高频分量重构图像 ϕ ( x ) \phi(x) ϕ(x) 和 ψ ( x ) \psi(x) ψ(x)。给图像添加对抗噪声,改变高频分量,破坏原始纹理信息,同时约束对抗样本与良性样本在低频分量的差异,将更多扰动导向高频域,提升攻击性能和隐蔽性。关键频率干扰攻击的损失为 J f a = J l f c − J h f c = J d ( ϕ ( x ) , ϕ ( x + δ ) ) − J d ( ψ ( x ) , ψ ( x + δ ) ) \mathcal{J}_{f a}=\mathcal{J}_{l f c}-\mathcal{J}_{h f c}=\mathcal{J}_{d}(\phi(x), \phi(x+\delta))-\mathcal{J}_{d}(\psi(x), \psi(x+\delta)) Jfa=Jlfc−Jhfc=Jd(ϕ(x),ϕ(x+δ))−Jd(ψ(x),ψ(x+δ)).
实验-Experiments
该部分通过多种实验,对 NumbOD 攻击方法的性能进行了全面评估,验证了其有效性、优越性、对不同模块和骨干网络的适应性以及对多种防御机制的抗性,具体内容如下:
-
实验设置
- 数据集和模型:使用 MS-COCO 和 PASCAL VOC 数据集,选取以 ResNet50、ResNet101 和 ResNeXt101 为骨干网络的9种模型,涵盖两阶段检测器(如 Faster R-CNN、Cascade R-CNN 等)和单阶段检测器(如 RepPoints、Deformable DETR 等)。
- 评估指标:采用平均精度均值(mAP)评估攻击有效性,选择 mAP 50 _{50} 50 和 mAP 75 _{75} 75(分别表示交并比(IoU)阈值为 0.5 和 0.75 时的平均精度)作为指标;使用Inception加权结构相似性指数度量(IW-SSIM)、归一化均方误差(NMSE)和总变差(TV)评估攻击隐蔽性。
- 实现细节:设置对抗扰动上限为8/255,超参数 λ \lambda λ 为100,训练轮数为50,批次大小为1,使用 Adamax 优化器,学习率为0.03,权重衰减为0.02。
-
攻击性能:在两个数据集上对9种目标检测器进行实验,结果显示 NumbOD 使不同模型在 mAP 50 _{50} 50 和 mAP 75 _{75} 75 指标上显著下降,表明检测精度大幅降低,如 Cascade R-CNN 和 RepPoints 等模型的 mAP 值明显下降。生成的对抗样本隐蔽性高,定性和定量结果共同证明了 NumbOD 的有效性和隐蔽性。
表1:NumbOD 对不同目标检测器的攻击性能
图4:在 MS-COCO 数据集上,不同方法针对 Faster R-CNN 生成的对抗样本可视化结果 -
对比研究:将 NumbOD 与 FGSM、DAG 等6种流行攻击方法对比,结果表明NumbOD 在攻击有效性和隐蔽性方面均优于现有方法。虽然 FGSM 在 IW-SSIM 指标上表现较好,但 NumbOD 在攻击性能和其他隐蔽性指标上优势明显。现有方法只能欺骗目标检测的回归或分类任务之一,而 NumbOD 能同时欺骗两个子任务,使预测框偏差或消失、分类错误。
表2:对比研究。加粗值表示最佳结果。
-
消融研究:在 Faster R-CNN 模型(ResNet50 骨干网络)和 MS-COCO 数据集上进行实验,研究不同模块和骨干网络对 NumbOD 的影响。结果表明,各模块对整体性能都有贡献,完整版本性能最佳;NumbOD 在不同骨干网络上均有出色攻击性能。
图5:消融研究。C-mAP 50 _{50} 50 和 P-mAP 50 _{50} 50 分别表示在 MS-COCO 和 PASCAL VOC 数据集上的 mAP 50 _{50} 50 结果,其他指标含义相同。
防御-Defense
该部分主要探究了 NumbOD 对抗不同防御策略的能力,通过实验验证其在多种防御手段下仍能保持较高攻击性能,具体内容如下:
- 对抗腐败防御:腐败是一种常用的图像预处理防御方法,实验选取亮度(“B-”)和飞溅(“S-”)两种策略对 NumbOD 生成的对抗样本进行处理。以 Faster R-CNN 模型为例,随着腐败程度的增加,模型的 mAP 50 _{50} 50值逐渐下降。然而,即便腐蚀程度达到5,NumbOD攻击下模型的平均 mAP 50 _{50} 50值仍低于25%,这充分表明NumbOD能有效抵御基于腐败的预处理防御。
- 对抗剪枝与微调防御
- 剪枝:剪枝通过选择性去除特定架构组件或参数来增强模型抗攻击能力。实验设置从0到0.8的不同剪枝率,结果显示,即便目标检测器在高剪枝率下接近崩溃,NumbOD 仍能保持强大的攻击能力,说明该攻击方法受剪枝影响较小。
- 微调:微调是调整模型预训练权重的防御方式。对五种常用目标检测器进行微调防御实验,结果表明,微调虽使模型的 mAP 50 _{50} 50 有所提升,但 NumbOD 依然维持较高的攻击性能,证明其能有效对抗微调防御。
- 对抗对抗训练防御:对抗训练是通过在训练数据集中引入噪声来增强模型鲁棒性的有效防御机制。在 MS-COCO 数据集上对五个预训练好的目标检测器进行微调并采用对抗训练。结果显示,即便经过对抗训练,NumbOD 仍保持较强的攻击性能,mAP 50 _{50} 50 下降幅度小于2.5%,证实了其对对抗训练防御的抵抗能力。
图6:在 MS-COCO 数据集上,NumbOD 针对不同防御机制的攻击性能。(a) - (d)分别检验了针对我们方法的四种防御机制:图像失真(Corruption)、剪枝(Pruning)、微调(Fine-tuning)和对抗训练(Adversarial training)。“Benign∗”和“Adv∗”分别代表采用防御方法后目标检测器的检测结果。
结论-Conclusion
该部分总结了 NumbOD 攻击方法的核心要点、优势以及实验验证结果,具体内容如下:
- 方法概述:提出 NumbOD,这是首个针对目标检测器的模型无关空间-频率融合攻击方法。该方法能使目标检测器对输入图像 “麻木”,无法检测出物体。它由空间协调偏差攻击和关键频率干扰攻击组成,通过双轨攻击目标选择策略,分别从分类和回归子任务中独立选取 top-k 个高质量边界框作为攻击目标。
- 攻击策略:在空间域,利用定向诱导移动目标检测器输出的检测框,并设计前景-背景分离攻击干扰分类,欺骗目标检测模型;在频率域,扭曲图像的高频信息,增强对关键物体的攻击效率。
- 实验验证:在九个目标检测器和两个数据集上进行了大量实验,结果表明 NumbOD 具有高攻击性能和高隐蔽性。在与现有先进攻击方法的对比中,NumbOD 表现更优,并且能够有效抵抗腐败、剪枝与微调、对抗训练等多种防御机制,展现出良好的攻击效果和稳定性。