全局上下文增强的自适应稀疏卷积网络用于无人机图像上更快速的目标检测

原文为:“Adaptive Sparse Convolutional Networks with Global Context Enhancement for Faster Object Detection on Drone Images”
本篇博客仅作翻译、学习、借鉴

摘要

在资源受限的无人机平台上,无人机图像上的目标检测具有低延迟是一项重要但具有挑战性的任务。作者研究了基于稀疏卷积优化检测头的方法,证明其在平衡准确性和效率方面是有效的。然而,它存在着对微小目标上下文信息集成不足以及在前景尺度变化时掩蔽比例控制笨拙的问题。为了解决上述问题,作者提出了一种新颖的全局上下文增强自适应稀疏卷积网络(CEASC)。它首先开发了一个上下文增强的分组归一化(CE-GN)层,通过用全局上下文替换基于稀疏采样特征的统计数据,从而解决了问题,然后设计了一种自适应多层掩蔽策略,以在不同尺度下生成最佳的掩蔽比例,以促进紧凑的前景覆盖,提高准确性和效率。在两个主要基准测试集,即VisDrone和UAVDT上的大量实验结果表明,当将CEASC应用到典型的最先进检测框架(例如RetinaNet和GFL V1)中时,它显著减少了GFLOPs并加速了推理过程,同时具有竞争性能。代码可在 https://github.com/Cuogeihong/CEASC 上获取。

1. 引言

近年来,深度神经网络的进展(例如CNN和Transformer)显著提升了在公共基准数据集(如COCO)上的目标检测性能。然而,针对无人机平台构建检测器仍然是一项具有挑战性的任务。一方面,现有研究致力于设计复杂的模型,以在高分辨率的无人机图像上达到微小目标的高准确度,这在计算上是消耗巨大的。另一方面,搭载在无人机上的硬件往往资源受限,迫切需要快速推理和低延迟的轻量级部署模型。

为了解决准确性和效率之间的平衡困境,人们进行了一系列努力,主要集中在通用目标检测上,主要集中于减少骨干网络的复杂性。然而,这些方法存在改进空间,因为它们未考虑到广泛使用的重型检测头,例如RetinaNet采用ResNet18作为骨干网络时,检测头部占用了82.3%的总GFLOPs。最近,出现了一些解决这个问题的方法,包括网络修剪和结构重新设计,证明了它们在加速推理方面的有效性。然而,前者在计算大幅减少时会出现尖锐的性能下降,这在尝试对无人机进行检测时有所体现,而后者主要针对低分辨率输入(例如640 × 640)进行了优化,使其不容易适应高分辨率的航空图像。
图1. (a) 在COCO和无人机图像数据库上前景比例的比较;以及 (b) 在VisDrone和UAVDT样本上前景的可视化(用黄色突出显示)

图1. (a) 在COCO和无人机图像数据库上前景比例的比较;以及 (b) 在VisDrone和UAVDT样本上前景的可视化(用黄色突出显示)


稀疏卷积显示出另一种有前景的替代方法,通过可学习的掩蔽仅在稀疏采样的区域或通道上进行卷积,从而限制计算。虽然理论上很有吸引力,但它们的结果高度依赖于有意义区域的选择,因为稀疏卷积中学习的掩蔽的焦点区域往往位于前景内部。关于无人机图像,绝大多数目标都是小尺度的(如图1(a)所示),前景区域的尺度随着飞行高度和观察视角的变化而变化(如图1(b)所示),这个问题变得更加突出。掩蔽比率不足会增大焦点部分,使更多不必要的计算消耗在背景上,这往往同时降低了效率和准确性。相反,过度的掩蔽比率会缩小焦点部分,并且在完全覆盖前景和关键上下文方面会遇到困难,从而导致性能下降。DynamicHead和QueryDet确实将稀疏卷积应用于检测头部;不幸的是,它们的主要目标是抵消在通用目标检测中使用额外特征图时增加的计算成本。它们都遵循稀疏卷积的原始传统方法,即设置固定的掩蔽比率或仅关注前景,因此远未达到无人机检测所需的准确性和效率之间的平衡。因此,利用稀疏卷积促进无人机的轻量级检测仍然是一个悬而未决的问题。

作者提出了一种新颖的即插即用的检测头优化方法,用于无人机图像上的高效目标检测,即全局上下文增强自适应稀疏卷积(CEASC)。具体来说,作者首先开发了一种上下文增强稀疏卷积(CESC)来捕获全局信息并增强焦点特征,该特征包括一个具有上下文增强分组归一化(CE-GN)层的残差结构。由于CE-GN专门保留一组整体特征并应用它们的统计数据进行归一化,因此它可以弥补稀疏卷积导致的上下文丢失并稳定前景区域的分布,从而避免准确性的急剧下降。然后,作者提出了一种自适应多层掩蔽(AMM)方案,它通过在特征金字塔网络(FPN)的不同级别上最小化一个精心设计的损失来分别估计最佳的掩蔽比率,从而平衡检测的准确性和效率。值得注意的是,CESC和AMM可以轻松扩展到各种检测器中,表明CEASC通常适用于现有的最先进目标检测器,以加速无人机图像上的目标检测。

作者的工作贡献有三点:
1)作者提出了一种基于稀疏卷积的新型检测头优化方法,即CEASC,用于无人机的高效目标检测。
2)作者引入了上下文增强稀疏卷积层和自适应多层掩蔽方案来优化掩蔽比率,实现了检测准确性和效率之间的最佳平衡。
3)作者在两个重要的无人机图像公共基准数据集上对所提出的方法进行了广泛评估,将CEASC集成到各种最先进的检测器(例如RetinaNet和GFL V1)中,显著降低了它们的计算成本,同时保持了竞争性的准确性。

2. 相关工作

2.1. 通用目标检测

通用目标检测方法主要分为基于锚点的检测器和无锚点的检测器,取决于它们是否使用预设的滑动窗口或锚点来定位目标提议。在基于锚点的检测器中,包括R-CNN、Faster R-CNN、Mask R-CNN等多阶段检测器,首先生成提议区域,然后在这些区域内对目标对象进行分类和定位。相反,像RetinaNet和GFL V1/V2等一阶段检测器中,对象的分类和定位可以直接在整个特征上进行,将锚点视为最终的边界框目标。至于无锚点的方法(例如Centernet、FCOS和FSAF),它们用效率更高的替代方案,如中心约束或对象热图,替代了造成重大计算负担的锚点。尽管这些方法持续取得进展,但将其应用于无人机上并不是那么直接。

2.2. 航空图像上的目标检测

针对无人机图像上的目标检测,当前的研究通常遵循从粗到细的流程,其中启动粗检测器以定位大尺度实例和包含密集分布的小实例的子区域,然后对这些区域应用细检测器以找到小尺寸实例。例如,ClusDet使用了一个尺度估计网络(ScaleNet)来进行更好的细检测;DMNet通过进行密度图引导的连通裁剪生成来优化区域选择;UFPMPDet将粗检测器生成的子区域合并成统一图像,并设计了多代理检测网络来提高微小目标的检测准确性;Focus&Detect利用高斯混合模型来估计焦点区域,并引入不完整框抑制来处理重叠的焦点区域。尽管这些方法取得了很高的准确性,但它们需要对同一图像进行多次推断,这不够高效,限制了它们在资源受限的无人机平台上的应用。

2.3. 目标检测的轻量级模型

随着深度学习的进步,目标检测模型的复杂性急剧增加,导致了高昂的计算成本和缓慢的推断速度。为了加速推断,提出了几种典型的解决方案,包括神经网络架构搜索、网络剪枝、知识蒸馏和轻量级模型设计等。其中,轻量级模型设计在速度和准确性的平衡方面具有良好的潜力,在无人机上的检测中处于领先地位。一些方法关注轻量级的骨干网络,其中MobileNet和ShuffleNet是代表性的,它们分别采用深度可分离卷积和分组卷积。一些方法设计了轻量级的检测头部,例如在YOLO系列中,YOLO v6提出了一个高效的解耦头部,而YOLO v7计划重新参数化卷积。稀疏CNN最近作为一种加速推断的有前途的方法出现,通过为卷积生成像素级样本掩蔽。特别地,尝试将稀疏卷积应用于检测头部。然而,由于这些方法通常使用固定的掩蔽比例而没有捕获全局上下文,它们无法处理前景区域的严重波动,导致在无人机图像上检测结果的优化不足。相比之下,作者的方法通过自适应地调整具有全局特征捕获的掩蔽比例,以平衡效率和准确性。

3. 方法

在这里插入图片描述

图2. CEASC的框架。给定一个基础检测器,如GFL V1,CEASC在每个FPN层中通过生成掩码特征Hi和全局特征Gi进行上下文增强,将检测头替换为上下文增强稀疏卷积(CESC)。掩码Hi的比例通过自适应多层遮罩(AMM)方案自动优化,促进精度和效率的提升。


如图2所示,给定一个基础检测器,整个CEASC网络旨在通过开发上下文增强稀疏卷积(CESC)来优化FPN中不同层的检测头,该卷积通过轻量级卷积模块以及上下文增强分组归一化(CEGN)层将焦点信息与全局上下文集成在一起。设计了自适应多层掩膜(AMM)模块,使模型能够自适应地生成具有足够掩膜比率的掩膜,从而实现更好的准确性和效率的平衡。

上述组件的详细内容在第3.1节和第3.2节中描述。

3.1 上下文增强稀疏卷积
3.1.1 稀疏卷积

大多数现有的无人机图像检测器使用密集的检测头,在整个特征图上进行卷积。尽管完全利用视觉线索有助于检测微小的目标,但密集的检测头需要更多的计算,这在资源受限的UAV平台上不适用。同时,前景区域仅占由无人机获取的帧的一小部分,如图1所示,这表明密集的检测头在背景上进行了大量计算操作,而背景包含了较少的用于目标检测的有用信息。这一观察结果揭示了通过仅在前景区域进行计算来加速检测头的潜力。

最近提出了稀疏卷积(SC),它通过使用稀疏掩膜只在前景区域进行卷积,并且在各种视觉任务的推理阶段证明了其有效性。受此启发,作者构建了基于SC的网络。

具体来说,给定来自FPN第i层的特征图 X i ∈ R B × C × H × W \mathbf{X}_i \in \mathbb{R}^{B \times C \times H \times W} XiRB×C×H×W,SC采用由共享核 W m a s k ∈ R C × 1 × 3 × 3 {\mathbf{W}_{mask}}\in\mathbb{R}^{C\times1\times3\times3} WmaskRC×1×3×3组成的掩膜网络,其中 B B B C C C H H H W W W分别表示批处理大小、通道大小、高度和宽度。基于 W m a s k {\mathbf{W}_{mask}} Wmask X i \mathbf{X}_i Xi上进行卷积会生成一个软特征 S i ∈ R B ˉ × 1 × H × W \mathbf{S}_i\in\mathbb{R}^{\bar{B}\times1\times H\times W} SiRBˉ×1×H×W,进而通过使用Gumbel-Softmax技巧将其转换为一个掩膜矩阵 H i ∈ { 0 , 1 } B × 1 × H × W \begin{aligned}\mathbf{H}_i\in\{0,1\}^{B\times1\times H\times W}\end{aligned} Hi{0,1}B×1×H×W,其形式如下所示:

H i = { σ ( S i + g 1 − g 2 τ ) > 0.5 ,  For training S i > 0 ,  For inference ( 1 ) \mathbf{H}_i=\begin{cases}\sigma\biggl(\frac{\mathbf{S}_i+g_1-g_2}{\tau}\biggr)>0.5,&\text{ For training}\\\mathbf{S}_i>0,&\text{ For inference}\end{cases}(1) Hi= σ(τSi+g1g2)>0.5,Si>0, For training For inference(1)

其中, g 1 , g 2   ∈   R B × 1 × H × W g_1,g_2~\in~\mathbb{R}^{B\times1\times H\times W} g1,g2  RB×1×H×W表示两个随机的gumbel噪声, σ σ σ是sigmoid函数, τ {\tau} τ是Gumbel-Softmax中对应的温度参数。

根据公式(1),仅在推理期间具有掩码值1的区域涉及卷积,从而降低了总体计算成本。 H i \mathbf{H}_i Hi的稀疏性由掩码比率 r ∈ [ 0 , 1 ] r\in[0,1] r[0,1]控制,现有研究中通常手动设置大于0.9。由于基础检测器(这里以GFL V1为例)在检测框架中具有分类头和回归头,考虑到它们通常聚焦于不同的区域,作者为每个头分别引入一个掩膜网络。每个检测头采用四个卷积-归一化-ReLU层和一个单卷积层进行预测,其中作者用SC层替换了传统的卷积层。

3.1.2 上下文增强

根据[44]的说法,上下文线索(例如围绕目标对象的背景)有助于目标检测;然而,SC仅对前景进行卷积,放弃了具有有用信息的背景,这可能会降低整体准确性,尤其是在无人机图像中普遍存在微小目标的情况下。为了解决这个问题,[40]尝试通过插值来恢复周围的上下文,但这并不可靠,因为焦点区域和背景区域存在很大的差异。在本

文中,作者提出了一个轻量级的CESC模块,同时利用焦点信息和全局上下文进行增强,并同时提高了后续计算的稳定性。

如图2所示,作者对特征图 X i \mathbf{X}_i Xi应用点卷积,生成全局上下文特征 G i \mathbf{G}_i Gi。由于只有 X i \mathbf{X}_i Xi中的少数元素通过SC进行处理,在多次SC后, G i \mathbf{G}_i Gi往往会变得稳定,而不会增加太多额外的计算成本。

作为SC的重要部分,作者将全局上下文信息 G i \mathbf{G}_i Gi嵌入到SparseConvolution-GN-ReLU层中,其中采用了特征图 X i , j \mathbf{X}_{i,j} Xi,j、掩膜 H i \mathbf{H}_i Hi和全局特征 G i \mathbf{G}_i Gi作为输入,其中j表示第j个SparseConvolution-GN-ReLU层。与传统的SC不同,作者不是使用激活元素来计算用于组归一化的统计信息,而是采用 G i \mathbf{G}_i Gi的均值和标准差进行归一化,以补偿缺失的上下文。假设 L i , j \mathbf{L}_{i,j} Li,j是在 X i , j \mathbf{X}_{i,j} Xi,j上应用SC后的输出特征图,则通过CE-GN得到的增强上下文特征 F i , j \mathbf{F}_{i,j} Fi,j如下:
F i , j = w × L i , j − m e a n [ G i ] s t d [ G i ] + b ( 2 ) \mathbf{F}_{i,j}=w\times\frac{\mathbf{L}_{i,j}-mean[\mathbf{G}_i]}{std[\mathbf{G}_i]}+b(2) Fi,j=w×std[Gi]Li,jmean[Gi]+b(2)

其中, m e a n mean mean[·]和 s t d std std[·]分别表示均值和标准差, w w w b b b是可学习的参数。

为了进一步减少SC中的信息丢失并使训练过程更稳定,作者在训练过程中额外保留了正常的密集卷积,生成了在完整输入特征图上进行卷积的特征图 C i , j \mathbf{C}_{i,j} Ci,j。然后,作者通过优化均方误差损失来使用 C i , j \mathbf{C}_{i,j} Ci,j增强稀疏特征图 F i , j \mathbf{F}_{i,j} Fi,j

L n o r m = 1 4 L ∑ i = 1 L ∑ j = 1 4 ∥ C i , j × H i − F i , j ∥ 2 , ( 3 ) \mathcal{L}_{norm}=\frac1{4L}\sum_{i=1}^{L}\sum_{j=1}^{4}\|\mathbf{C}_{i,j}\times\mathbf{H}_i-\mathbf{F}_{i,j}\|^2,(3) Lnorm=4L1i=1Lj=14Ci,j×HiFi,j2,(3)

其中, L L L是FPN中的层数。

最后,作者在激活层之前采用了残差结构,通过将 G i \mathbf{G}_i Gi添加到 F i , j \mathbf{F}_{i,j} Fi,j中,即 F i , j : = F i , j + G i \mathbf{F}_{i, j}:=\mathbf{F}_{i, j}+\mathbf{G}_i Fi,j:=Fi,j+Gi,从而加强了上下文的保留。CESC模块和CE-GN层的完整架构如图2所示。

3.2 自适应多层掩膜

在没有任何额外约束的情况下,稀疏检测器倾向于生成具有较大激活比率(或较小掩膜比率)的掩膜以获得更高的准确性,从而增加了总体计算成本。为了解决这个问题,大多数现有尝试使用固定的激活比率。然而,由于航空图像的前景存在严重波动,固定比率容易导致计算量的显著增加或由于对前景区域覆盖不足而降低准确性。为了在准确性和效率之间取得平衡,作者提出了AMM方案来自适应地控制激活比率(或反向掩膜比率)。

具体来说,AMM首先基于地面真实标签估计出最佳掩膜比率。通过利用标签分配技术,对于第i个FPN层,作者获得了地面真实分类结果 C i ∈ R h i × w i × c \mathcal{C}_i \in \mathbb{R}^{h_i \times w_i \times c} CiRhi×wi×c,其中 c c c表示类别数量,包括背景; h i \mathbf{h}_i hi w i \mathbf{w}_i wi分别表示特征图的高度和宽度。第 i i i个FPN层中的最佳激活比率 P i \mathbf{P}_i Pi估计为:

P i = Pos ⁡ ( C i ) Numel ⁡ ( C i ) , ( 4 ) \mathcal{P}_i=\frac{\operatorname{Pos}\left(\mathcal{C}_i\right)}{\operatorname{Numel}\left(\mathcal{C}_i\right)},(4) Pi=Numel(Ci)Pos(Ci),(4)

其中, P o s ( C i ) Pos(\mathbf{C}_i) Pos(Ci) N u m e l ( C i ) Numel(\mathbf{C}_i) Numel(Ci)分别表示属于正(前景)实例的像素数和所有像素数。

为了指导网络自适应地生成具有足够掩膜比率的掩膜,作者使用以下损失:

L a m m = 1 L ∑ i ( Pos ⁡ ( H i ) Numel ⁡ ( H i ) − P i ) 2 , ( 5 ) \mathcal{L}_{a m m}=\frac{1}{L} \sum_i\left(\frac{\operatorname{Pos}\left(\mathbf{H}_i\right)}{\operatorname{Numel}\left(\mathbf{H}_i\right)}-\mathcal{P}_i\right)^2,(5) Lamm=L1i(Numel(Hi)Pos(Hi)Pi)2,(5)

其中, Pos ⁡ ( H i ) Numel ⁡ ( H i ) \frac{\operatorname{Pos}\left(\mathbf{H}_i\right)}{\operatorname{Numel}\left(\mathbf{H}_i\right)} Numel(Hi)Pos(Hi)表示掩膜 H i \mathbf{H}_i Hi的激活比率。通过最小化 L a m m Lamm Lamm,强制 H i \mathbf{H}_i Hi遵守与地面真实前景比率 P i \mathbf{P}_i Pi相同的激活比率,从而促进了生成适当的掩膜比率。

通过添加传统的检测损失 L d e t Ldet Ldet,作者将整体训练损失表示为:

L = L det  + α × L norm  + β × L amm  , ( 6 ) \mathcal{L}=\mathcal{L}_{\text {det }}+\alpha \times \mathcal{L}_{\text {norm }}+\beta \times \mathcal{L}_{\text {amm }},(6) L=Ldet +α×Lnorm +β×Lamm ,(6)

其中, α α α β β β是平衡 L norm  \mathcal{L}_{\text {norm }} Lnorm  L amm  \mathcal{L}_{\text {amm }} Lamm 重要性的超参数。

4. 实验

作者通过与最先进的轻量级方法进行比较并进行全面的消融研究来评估CEASC的有效性。

4.1. 数据集和评价指标

作者采用两个主要的无人机目标检测基准进行评估,即VisDrone [49] 和 UAVDT [4]。VisDrone包含7,019张分辨率为2,000×1,500的高分辨率航拍图像,属于10个类别。作者采用了6,471张图像进行训练,548张图像进行测试,这是根据之前的工作 [42,43] 进行的。UAVDT包含23,258张训练图像和15,069张测试图像,分辨率为1,024×540,来自3个类别。
作者采用平均精度(mAP)、平均精度(AP)和平均召回率(AR)作为准确性的评价指标,以及GFLOPs和FPS作为效率的指标。

4.2. 实现细节

作者基于PyTorch [27] 和 MMDetection [3] 实现了作者的网络。在VisDrone上,所有模型都使用SGD优化器进行了15个epoch的训练,学习率初始化为0.01,并进行线性预热,在第11和第14个epoch后减小10倍。在UAVDT上,作者使用初始学习率为0.01进行了6个epoch的模型训练,并在第4和第5个epoch后减小10倍。在方程(6)中,权衡超参数 α α α β β β设置为1和10,Gumbel Softmax中的温度参数 τ {\tau} τ固定为1。作者默认使用GFL V1作为基础检测器,ResNet18作为骨干网络,具有512个特征通道。输入图像的大小在VisDrone和UAVDT上分别设置为1,333×800和1,024×540。所有实验都在两个NVIDIA RTX 2080Ti GPU上进行,除了推断速度是在单个RTX 2080Ti GPU上进行测试。
在这里插入图片描述

表1. 使用作者的方法结合不同基础检测器在VisDrone上的AP/AR(%)和GFLOPs/FPS的比较。
4.3. 对不同检测器的评估

值得注意的是,提出的CEASC网络是即插即用的。为了验证其在各种基础检测器中的效果,作者结合了CEASC与四种流行的基础检测器:GFL V1 [21]、RetinaNet [22]、Faster-RCNN [29] 和FSAF [48]。如表1所示,通过集成CEASC,所有基础检测器的GFLOPs至少减少了60%,FPS提高了20%∼60%,mAP稍有波动,表明其在加速检测器方面的有效性和普适性,而不损失其准确性。

4.4. 消融研究

作者验证了CEASC的主要组件,其中在所有消融研究中作者也采用GFL V1作为基础检测器。
在这里插入图片描述

表2. 在VisDrone上使用GFL V1作为基础检测器对CESC和AMM进行消融实验。
4.4.1. 关于CESC和AMM

如表2所示,通过使用CESC组件,基础检测器约节省了70%的GFLOPs,运行速度提高了1.43倍,而没有降低准确性,因为SC降低了复杂度,而CE-GN层以及残差结构则补偿了上下文的丢失。通过采用动态掩码比率来获得紧凑的前景覆盖,AMM组件进一步提高了准确性,并且在节省5.1%的GFLOPs的同时加快了推断速度11.9%。需要注意的是,当直接应用SC而没有CESC时,GFL V1的训练过程变得极不稳定,因此作者没有提供在GFL V1上单独评估AMM的结果。
在这里插入图片描述

表3. 在VisDrone上使用GFL V1对CESC中详细设计的消融实验。
4.4.2. 关于CESC中的详细设计

作者分别评估了残差结构(Res.)、CE-GN和方程(3)中的标准化损失 L norm  \mathcal{L}_{\text {norm }} Lnorm 对CESC性能的影响。回顾一下,当直接应用SC到GFL V1时,训练过程不稳定。如表3所总结的,当使用残差结构时,GFL V1与SC变得稳定,并且GFLOPs大大减少,但由于上下文的丢失,mAP急剧下降。通过通过CE-GN添加上下文信息,准确性显着提高,GFLOPs略微增加。 L norm  \mathcal{L}_{\text {norm }} Lnorm 进一步提高了准确性和效率,因为它隐式地加强了特征的稀疏性。
在这里插入图片描述

表4. 在VisDrone上使用GFL V1对CE-GN的消融实验。

在这里插入图片描述

图3. 在 VisDrone 数据集上使用不同的规范化方案可视化通过稠密卷积和稀疏卷积生成的特征之间的相关性,(a) 和 (b) 分别使用 CE-GN 和 GN 进行稀疏卷积。


作者通过将CE-GN与不使用标准化的其他方法进行比较,包括QueryDet中未使用标准化的方法、DynamicHead [31] 中的GroupNorm(GN)[39]、批标准化(BN)[16] 和实例标准化(IN)[34]。作者还报告了通过使用原始GFL V1检测器表示的结果,表示为“密集Conv。”。如表4所示,CE-GN显著提高了模型的准确性,比不使用标准化的模型提高了2.6%。与其他标准化方案相比,CE-GN的准确性更高,比GN、BN和IN分别高出0.7%、2.6%和0.8%。值得注意的是,CE-GN在GFLOPs和FPS方面的效率最佳。为了突显CE-GN的优势,作者将使用CE-GN和GN分别进行SC的特征的余弦相似度进行了可视化。如图3所示,使用CE-GN的特征显示出比使用GN的特征更高的相关性,显示了CE-GN在增强SC的全局上下文方面的优势。
在这里插入图片描述

表5. 使用GFL V1 在 VisDrone 数据集上对编码全局上下文的不同方法的比较。


为了编码全局上下文,作者使用点卷积,并将其与包括普通3×3卷积、GhostModule [9] 和几种基于注意力的方法(如CBAM [38] 和Criss-Cross Attention [15])进行比较。如表5所示,点卷积在检测准确性方面优于其他方法。同时,它在基于卷积的方法中达到了最低的GFLOPs,并且在所有方法中实现了最高的FPS,清楚地表明了它在准确性和效率之间的平衡方面的优势。
在这里插入图片描述

图5. 比较由AMM估算的动态掩码比率和固定掩码比率。
4.4.3. 关于AMM的详细分析

作者将AMM模块与在VisDrone上范围为0.50到0.95,在UAVDT上范围为0.50到0.975的固定掩码比率进行比较。如图5所示,降低掩码比率时,更多的特征参与卷积,导致计算成本更高,FPS更低。同时,作者可以看到检测准确性对掩码比率非常敏感,但随着比率的增加并不一致地提高。此外,最佳固定掩码比率在不同数据集上会有所不同,例如,在mAP方面,VisDrone上为0.9,UAVDT上为0.95。相比之下,AMM自适应地确定了一个合适的掩码比率,基础检测器能够达到最佳的准确性和最高的推断速度,表明其必要性。
在这里插入图片描述

表6. 在 VisDrone 数据集上通过 AMM 以不同方式估计掩码比率的比较。


在这里插入图片描述

图4. 对GFL V1中FPN的不同层(从'P3'到'P7')估算的动态掩码的可视化。突出显示的区域被激活以进行计算。


需要注意的是,AMM分别为“分层式”的方式计算不同层的掩码比率。作者将其与一个“全局”版本进行比较,后者为所有层估计一个全局掩码比率。如表6所示,“分层式”方法在mAP和FPS方面明显优于“全局”方法。原因在于不同层的FPN中的最佳掩码比率有所不同,如图4所示,“分层式”方法比“全局”方法更精确地估计了掩码比率,从而促进了准确性和效率的提高。作者还评估了它在不同FPN层上的效果。减少FPN层数会改善GFLOPs和FPS。放弃P6-P7并不会对结果产生太大影响,因为它们的信息量较少。删除P4会导致mAP急剧下降,表明P4至关重要,这与可视化结果一致。

4.5. 与SOTA的比较

作者将作者的网络与最先进的网络进行了比较:
1)轻量级方法包括MobileNet V2 [13] 和ShuffleNet V2 [47];
2)针对无人机图像的检测头优化方法包括QueryDet [42] 及其加速部分QueryDet-CSQ [42]。由于GFL V1 [21] 作为基础检测器被广泛用于无人机目标检测,并且在无人机图像中证明了有效性,作者选择了它作为基础检测器,并将原始版本表示为“基线”方法。作者还报告了使用RetinaNet [22](骨干网络为ResNet50)的结果,因为它被用作QueryDet和QueryDet-CSQ中的基础检测器。值得注意的是,作者的实现采用了与QueryDet相同的数据增强技术,以进行公平比较。
在这里插入图片描述

表8. 在VisDrone数据集上,将mAP/AP(%)和GFLOPs/FPS与最先进的方法进行比较。'-'表示结果未报告或不公开可用。


如表8所示,CEASC显著降低了基础检测器(GFL V1和RetinaNet)的GFLOPs,在mAP上略高于前者。例如,CEASC将基线GFL V1的GFLOPS减少了71.4%,在FPS方面推断速度提高了60%,mAP提高了0.3%。由于轻量级模型,即MobileNet V2和ShuffleNet V2,通过简化网络结构来追求效率,因此它们的mAP比作者的要低。此外,它们应用密集检测头,因此需要更多的GFLOPs。尽管QueryDet-CSQ考虑通过CSQ模块对检测头进行优化,但它只集中在小目标上,并忽略了上下文信息的丢失。此外,QueryDet引入了额外的重型查询头来提高性能,这不可避免地增加了更多的计算成本。相比之下,CEASC新开发了增强上下文的稀疏卷积模块,并设计了自适应的多层掩码方案,因此在准确性和效率方面明显优于QueryDet和QueryDet-CSQ。
作者还在UAVDT上评估了CEASC。如表9所示,与基线相比,作者的方法将GFLOPs减少了76.3%,推断速度提高了38.9%,mAP提高了0.2%。

5. 结论

作者提出了一种新颖的即插即用检测头优化方法,即CEASC,用于无人机图像上的目标检测。它开发了带有CE-GN的CESC模块,显着弥补了全局上下文的丢失,并稳定了前景的分布。此外,它设计了AMM模块,以自适应方式调整不同前景区域的掩码比率。在VisDrone和UAVDT上取得的广泛实验结果表明,CEASC显着加速了各种基础检测器的推理速度,并且具有竞争力的准确性。

  • 20
    点赞
  • 32
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值