【读点论文】ALightweightFusionStrategyWithEnhancedInterlayerFeatureCorrelationforSOD新的特征融合模块,融合层间特征和分级空间关系

A Lightweight Fusion Strategy With Enhanced Interlayer Feature Correlation for Small Object Detection

Abstract

  • 由于分辨率低、背景混合等原因,在无人机图像中检测小物体具有挑战性,导致特征信息有限。多尺度特征融合可以通过捕获不同尺度的信息来增强检测,但传统策略存在不足。简单的连接或加法操作不能充分利用多尺度融合的优势,导致特征之间的相关性不足。这种不足阻碍了小物体的检测,特别是在复杂背景和人口密集的地区。为了解决这个问题并有效地利用有限的计算资源,我们提出了一种基于增强层间特征相关性(EFC)的轻量级融合策略来取代特征金字塔网络(FPN)中的传统特征融合策略。特征金字塔中不同层的语义表达不一致。在EFC中,分组特征聚焦单元(GFF)通过关注不同特征的上下文信息来增强每层的特征相关性。多级特征重构模块(MFR)有效地重构和转换金字塔中每层的强弱信息,以减少冗余特征融合并在深度网络中保留更多关于小目标的信息。值得注意的是,所提方法是即插即用的,可广泛应用于各种基础网络。在 VisDrone、无人机基准物体检测与跟踪 (UAVDT) 和微软常见物体上下文 (COCO) 上的大量实验和全面评估证明了其有效性。在具有大量小目标的 VisDrone 数据集上使用广义焦点损失 (GFL) 作为基线,所提方法将检测平均精度 (mAP) 提高了 1.7%,超越了许多轻量级的最先进的方法,并显著降低了瓶颈端的 Params 和 GFLOP。代码将在 https://github.com/nuliweixiao/EFC.git 上提供。
  • 论文地址:A Lightweight Fusion Strategy With Enhanced Interlayer Feature Correlation for Small Object Detection | IEEE Journals & Magazine | IEEE Xplore
  • EFC由两个主要组成部分构成:GFF和MFR。
GFF增强了相邻特征之间的相关性,并专注于关键信息。MFR分离强和弱的空间信息,利用轻量级卷积模块实现精确的特征转换。这种方法减少了不相关信息的提取,同时在深层网络中保留了小对象的关键细节
    • GFF:增强相邻特征之间的相关性。GFF旨在加强不同特征图之间的空间上下文关联,从而提高语义表示的质量。其工作流程可以分为三个阶段:
      • 空间聚焦:通过上采样和1×1卷积操作调整特征图的分辨率和通道数,使得低分辨率特征图能够与高分辨率特征图相匹配。将这些特征图进行元素级加法融合,随后使用1×1卷积压缩到单个通道,并通过Sigmoid函数生成一个权重图。这个过程类似于注意力机制,其中权重图决定了每个位置的重要性。
      • 特征分组与融合:对经过空间聚焦后的特征图按照通道分割成多个小组,对每组内部的特征应用卷积操作以捕捉更细致的局部模式。生成的注意力掩码帮助突出重要特征,而忽略不重要的部分。这一步骤类似于自注意力机制中计算query、key和value的过程,只不过是在更细粒度的层面上操作
      • 空间映射归一化:使用归一化技术如Batch Normalization或Layer Normalization处理聚合后的特征,确保数值稳定性和加快训练速度。此外,归一化有助于保留更多关于小目标的空间位置信息,这是通过特征图的统计特性(均值和标准差)实现的。
    • MFR:分离并精确转换特征。MFR专注于优化特征转换过程,确保在减少冗余的同时保持对小目标细节的关注。它包含以下步骤:
      • 特征分离:分离出特征图中的强特征(携带较多信息的部分)和弱特征(相对较少信息的部分),以便针对性地进行后续处理。
      • 特征转换:对于强特征,采用1×1卷积直接增加信息量;对于弱特征,则引入轻量级的Feature Transformation Unit (FTU)进行转换。FTU基于深度可分离卷积,这是一种高效的卷积形式,可以在减少参数数量的同时保持良好的性能。
      • 级联融合:将转换后的特征重新组合,形成最终的特征表示。这一过程确保了特征不仅包含了详细的视觉信息,也促进了跨通道的信息交流。
  • 通过上述方法,EFC能够在深度神经网络中有效地增强特征的相关性和质量,特别是在面对小目标检测时,显著提升了模型的表现力。这种方法体现了现代深度学习中常见的策略:利用注意力机制和特征工程来优化数据表征,从而达到更好的泛化能力和预测效果

INTRODUCTION

  • 近年来,无人机物体检测在遥感、交通监控、搜索操作和安全等应用领域取得了长足发展 。这些应用的成功实施依赖于快速有效地识别无人机拍摄的图像中的物体。无人机物体检测面临着独特的挑战。一方面,无人机图像具有高分辨率和显著背景噪声的特点,这可能会遮挡目标物体并使检测更加困难。另一方面,无人机的硬件限制要求在这些资源限制内提高检测精度

  • 小物体检测在无人机图像中是一项特别具有挑战性的任务,因为小物体的分辨率低,这使得它们更容易受到噪声的影响,导致有效信息有限。在卷积神经网络 (CNN) 特征提取过程中,小物体容易出现特征消失。为了解决这个问题,多尺度特征融合通过丰富小物体的特征表示来增强网络感知小物体的能力。这种方法可以捕获各种尺度的目标信息并提供高分辨率特征图,这对于精确定位和识别至关重要。

  • 特征金字塔网络 (FPN) 是一种广泛采用的模型,它通过整合主干网络中的相邻层来生成金字塔式多尺度特征。这种融合将深层抽象语义特征与浅层高分辨率特征相结合,从而增强了不同尺度上的特征表达。然而,FPN 中的传统融合方法(例如简单的连接或加法运算)并未充分利用多尺度融合的优势。如图 1 所示,低分辨率特征仅通过堆叠和通道融合进行上采样并与相邻层融合,而没有充分考虑它们的相关性。这种疏忽限制了对来自每一层的相关特征的利用,从而削弱了多尺度信息的表示。

    • 在这里插入图片描述

    • 图 1. 传统的融合策略存在几个缺点,包括来自不同层的特征之间的弱相关性以及融合后产生冗余特征。由于小物体的尺寸小,检测小物体具有挑战性,这使得它们在深度网络中容易丢失信息,并且容易被背景噪声所掩盖。GFF 显著提高了小物体信息在特征图上的表示,而特征重构 MFR 解决了深度网络中小物体信息不可逆丢失的问题。

  • 在特征融合阶段,融合后的信息通过 3×3 的卷积层送至检测头结构。在深层使用大核卷积往往会产生冗余信息,浪费计算资源。另外,金字塔顶端的特征已经具备了高层的语义信息,再经过大核卷积会与浅层特征产生语义偏差,使得小目标的特征信息更加抽象,难以与空间位置匹配

  • 我们注意到,传统的网络颈部融合方法不足以充分利用多尺度特征融合的优势。对特征进行分层解构至关重要。针对上述问题,我们提出了一种轻量级的特征融合策略,称为增强层间特征相关性(EFC)。 该策略通过两个专门设计的模块扩展了传统的两层特征图融合架构。 通过关注空间上下文信息和层间特征之间的共性,该策略增强了特征之间的语义表示,从而提高了多尺度特征的学习能力。具体而言,我们首先设计了分组特征聚焦单元(GFF)来获取全局信息并增强融合特征的相关性。该过程主要包括空间聚焦、特征分组与融合以及空间映射归一化。

  • 这解决了传统融合策略中特征相关性和匹配性较差的问题,提供了更丰富的上下文信息,有助于模型更准确地定位小物体。随后,我们引入了多级特征重构(MFR)模块来取代网络颈部的3×3卷积。 MFR分离特征间的强弱信息,引导特征间的变换,实现高层次的特征聚合,通过重构特征,减少浅层特征和深层特征融合时产生的语义偏差,旨在减少融合和变换引入的特征冗余,最大程度减少深度网络中小物体特征信息的丢失,增强小物体的表征能力。值得一提的是,该方法可以灵活应用于各种利用多尺度特征融合的检测器。

  • 我们使用主流框架和各种骨干网络在广泛使用的数据集上验证了我们提出的方法的有效性,包括 VisDrone 、无人机基准物体检测和跟踪 (UAVDT) 和微软常见物体上下文 (COCO) 。 实验表明,我们的方法不仅对小物体检测有效,而且还显著减少了颈部阶段的参数数量和 GFLOP。在深入研究我们的方法的具体细节之前,我们总结我们的贡献如下。

    • 我们提出了一种增强层间特征相关性的轻量级特征融合策略,称为 EFC,它可以有效地检测小物体。
    • 我们引入 GFF 来聚合上下文信息并增强不同层上特征之间的相关性。
    • 我们引入了特征重建模块(FRM)来替代深度网络中的大核卷积,减少细微信息的丢失和冗余特征的产生,从而最大限度地减少资源消耗。
  • 轻量级融合策略的需求:为了在有限的计算资源下高效利用多尺度融合,提出了一种基于增强层间特征相关性(EFC)的轻量级融合策略,以替代FPN中的传统特征融合策略。该方法具有良好的灵活性和通用性,可以广泛应用于各种基础网络,并进一步提高现有方法的性能。

RELATED WORK

A. General Object Detection

  • 物体检测是计算机视觉中的一项基本任务,旨在识别给定图像中物体的类别和位置。目前,物体检测方法大致可分为两类:基于 RCNN 系列 的两阶段检测器,以及基于 SSD 和 YOLO 系列 的单阶段检测器。两阶段检测器首先定位图像中的候选区域,然后使用分类器对每个候选区域进行分类。 另一方面,单阶段检测器采用端到端方法,在同一网络内同时执行定位和分类。通常,与单阶段检测方法相比,两阶段检测方法往往具有更高的精度,但检测速度较慢。 然而,RetinaNet 作为单阶段检测器,实现了与两阶段检测器相当的检测性能。与广义焦点损失 (GFL) 类似,它将锚点视为最终的边界框目标。虽然这些方法在一般的物体检测任务中表现良好,但在应用于包含大量小物体的无人机图像时效果并不理想。在本文中,我们介绍了我们提出的小物体检测方法,并将其应用于不同的检测器以证明其有效性。

B. Small Object Detection

  • 由于难以对有限尺寸的物体进行定位,小物体检测一直是一个具有挑战性的问题。近年来,已经提出了许多方法来解决这个问题 。数据增强技术已被用于缓解小物体数据的稀缺性 [Towards deeply unified depth-aware panoptic segmentation with bi-directional guidance learning]。提高输入特征的分辨率可以扩大小物体的尺寸 ,从而增强定位能力。然而,这显著增加了模型的复杂度并降低了检测速度。QueryDet 利用高分辨率特征并引入一种新颖的查询机制来加速基于特征金字塔的物体检测器的推理速度,解决了高计算资源消耗的问题。CEASC 开发了一种上下文增强稀疏卷积来捕获全局信息并增强焦点特征,在平衡检测精度和效率的同时,大大降低了检测高分辨率图像的计算复杂度

  • 这些方法大多侧重于改进检测头以提高网络性能。相比之下,我们的工作主要改进颈部阶段,解决融合高分辨率和低分辨率特征的不足,以解决网络中特征表示弱和小物体定位困难的问题。值得注意的是,我们的方法可以直接应用于上述方法。

C. Feature Enhancement and Fusion Methods

  • 特征金字塔的构建是许多计算机视觉任务中至关重要的一步,是现代检测器不可或缺的组成部分,是解决多尺度问题的基础。对于较小的目标,特征图往往只包含几个甚至一个像素的有效信息。因此,研究特征融合方法对于准确表示小目标的特征信息尤为重要。FPN构建了一条自上而下的路径,将各个层次的特征结合起来,实现多尺度特征融合。PANet 在FPN的基础上引入了一条自下而上的路径,有助于将高分辨率信息与更强的语义特征融合。随后,NAS-FPN 和BiFPN 被提出来增强多尺度特征的融合。与许多专注于跨尺度连接的研究不同,A2-FPN 探索了对聚合特征的节点操作,利用注意机制来引导特征融合。虽然这种方法提高了检测性能,但它显著增加了计算复杂度。在本文中,我们研究了特征融合的基本问题,并以远低于原始 FPN 的计算复杂度实现了卓越的检测性能。

D. Lightweight Structural Design

  • CNN 在计算机视觉任务中取得了显著的成果,但这往往伴随着大量的计算资源需求。一个关键目标是在有限的计算资源下获得更好的性能。知识蒸馏和网络修剪等技术通常用于减轻模型重量。此外,还有一些工作专注于轻量级骨干网络,如 MobileNet 和 ShuffleNet ,以及轻量级检测头 。相比之下,我们的工作重点是网络的特征金字塔部分。我们通过优化特征融合结构来有效利用计算资源,解决了特征融合中现有的不足。 这种方法最大限度地减少了无效特征的融合和提取,实现了效率和复杂性之间的平衡

METHOD

  • 在本节中,我们详细介绍了我们提出的轻量级融合策略,该策略使用 EFC,旨在优化不同层之间的特征融合。EFC 由两个主要组件组成:GFF 和 MFR。 GFF 增强了相邻特征之间的相关性并关注关键信息。MFR 分离强弱空间信息,利用轻量级卷积模块实现精确的特征变换。该方法减少了无关信息的提取,同时保留了深度网络中小物体的关键细节。

A. Grouped Feature Focus Unit

  • 1)空间集中:为了有效地结合骨干网络中相邻层的语义(它们具有不同程度的抽象语义信息)和从不同通道中提取相关的特征信息,我们引入了GFF单元,该单元增强了特征之间的相关性,提高了信息的表达能力。如图2所示, P i ∈ R C 1 × ( H / 2 ) × ( W / 2 ) P_i∈R^{C_1×(H/2)×(W/2)} PiRC1×H/2×W/2 P i − 1 ∈ R C × H × W P_{i-1}∈R^{C×H×W} Pi1RC×H×W 表示来自不同阶段的单阶段特征。首先使用线性插值对低分辨率特征 Pi 进行上采样,然后进行 1×1 卷积以保证特征图的通道数保持一致。然后将该处理后的特征与高分辨率特征 Pi-1 逐元素相加,得到粗特征 P c ∈ R C × H × W P_c∈R^{C×H×W} PcRC×H×W。为了细化该特征并获取上下文感知信息,我们使用 1×1 卷积将特征压缩为单通道以聚合空间信息,然后使用 sigmoid 激活生成空间聚合权重 ω s ∈ R 1 × H × W ω_s ∈ R ^{1×H×W} ωsR1×H×W 。包含空间信息的特征 P s ∈ R C × H × W P_s ∈ R ^{C×H×W} PsRC×H×W 可以计算为

    • ω s = S i g m o i d ( C o n v ( P i ⊕ P i − 1 ) )    ( 1 ) P s = ( P c ⊗ ω s )    ( 2 ) ω_s = Sigmoid(Conv(P_i ⊕ P_{i−1})) ~~(1)\\ P_s = (P_c ⊗ ω_s)~~ (2) ωs=Sigmoid(Conv(PiPi1))  (1)Ps=(Pcωs)  (2)

    • 其中⊗是元素乘法,⊕是元素求和。Sigmoid表示激活函数。Conv表示1×1卷积层。

    • 在这里插入图片描述

    • 图 2. 基于 EFC 轻量级融合策略 (EFC) 的 FPN 框架的详细结构。给定 GFL 作为基础检测器。值得注意的是,该方法可以灵活应用于任何基于 FPN 架构的检测器。EFC 用 GFF 和 MFR 取代了传统的融合策略和颈部的大核卷积

    • EFC由两个主要组成部分构成:GFF和MFR。
GFF增强了相邻特征之间的相关性,并专注于关键信息。MFR分离强和弱的空间信息,利用轻量级卷积模块实现精确的特征转换。这种方法减少了不相关信息的提取,同时在深层网络中保留了小对象的关键细节

  • 2)特征相关性:为了增强相邻特征之间的相关性,我们将空间聚合特征 Ps 沿通道维度分成 n 组,并按组进行特征交互。具体而言,我们使用卷积模块细化每组 [ P s ] n = i g ∈ R ( C / n ) × H × W [P_s] ^g _{n=i} ∈ R ^{(C/n)×H×W} [Ps]n=igR(C/n)×H×W 内相邻通道的特征信息。组 [ P s ] n = i g [P_s] ^g _{n=i} [Ps]n=ig 中不同通道的全局特征经过变换后生成一个注意力掩码 ωg,用于捕捉通道间特征相关性。然后将此掩码 ωg 应用于细化后的特征。最后,将每组特征连接起来形成聚合的、高度相关的相邻特征 P g ∈ R C × H × W P_g ∈ R ^{C×H×W} PgRC×H×W 。整个计算过程如下:

    • P g i = ( S o f t m a x ( F ( [ P s ] n = i g ) ) ) ⊗ ( N ( [ P s ] n = i g ) )    ( 3 ) P g = P g 1 ∪ P g 2 ⋅ ⋅ ⋅ ∪ P g i    ( 4 ) Pgi = (Softmax( F ([Ps] ^g _{n=i}))) ⊗ (N ([P_s] ^g _{n=i})) ~~ (3) \\ P_g = P_{g1} ∪ P_{g2} · · · ∪ P_{gi} ~~(4) Pgi=(Softmax(F([Ps]n=ig)))(N([Ps]n=ig))  (3)Pg=Pg1Pg2⋅⋅⋅Pgi  (4)

    • 其中 F 和 N 分别表示融合交互层和卷积变换层。∪ 表示连接。Pgi 表示每个高度相关的特征组。 Softmax 用作激活函数来生成注意力掩码。

  • 3)空间映射归一化:最后,我们将分组聚合特征 Pg 嵌入到具有多层原始特征融合 (MFF) 的归一化层中。我们使用特征 Pg 的均值和标准差对其进行归一化,从而从较小的目标中纳入更多的空间位置信息。通过 MFF-GN,我们获得了具有强特征相关性和丰富空间信息的特征 Pf,可以将其表示为

    • P f = P g − m e a n ( P i ⊕ P i − 1 ) s t d ( P i ⊕ P i − 1 ) P_f=\frac{P_g-mean(P_i ⊕P_{i-1})}{std(P_i⊕P_{i-1})} Pf=std(PiPi1)Pgmean(PiPi1)

    • 其中 mean(·) 和 std(·) 分别表示平均值和标准差。

  • 通过采用这种方法,我们充分利用来自相邻层的语义信息并跨不同通道提取相关特征,从而增强整体特征表示

B. Multilevel Feature Reconstruction Module

  • 为了减少不相关特征的融合和提取,最大程度地减少深度网络中目标信息的丢失,我们设计了一种MFR。重构特征的目的是将来自骨干网络不同阶段的特征图中所包含的丰富信息和较弱信息分离出来,并进行独立处理。这样可以最大限度地保留丰富的特征,同时需要最少的计算资源来变换较弱的特征。由于小目标的信息在特征提取和融合过程中特别容易丢失,这种重构和独立变换的过程在一定程度上有助于缓解小目标信息的丢失

  • 1)特征分离:具体来说,如前所述,我们从不同阶段的单级特征 P i ∈ R C 1 × ( H / 2 ) × ( W / 2 ) P_i ∈ R ^{C_1×(H/2)×(W/2)} PiRC1×(H/2)×(W/2) P i − 1 ∈ R C × H × W P_{i−1} ∈ R ^{C×H×W} Pi1RC×H×W 中,通过上采样、卷积、元素相加等操作,得到特征 P c ∈ R C × H × W P_c ∈ R ^{C×H×W} PcRC×H×W。接下来,我们应用平均池化和 sigmoid 函数在每个通道上生成信息权重,作为特征权重阈值 T c ∈ R C × 1 × 1 T_c ∈ R ^{C×1×1} TcRC×1×1。Tc 可以表示为

    • T c = S i g m o i d ( a v g ( P c ) )    ( 6 ) Tc = Sigmoid(avg(P_c)) ~~(6) Tc=Sigmoid(avg(Pc))  (6)

    • 其中 avg(·) 表示平均池化。

  • 单级特征 Pi 和 Pi−1 分别通过批量归一化(BN) 处理,并由 S 型函数激活,在每个空间位置生成唯一的权重信息 ω i ∈ R C × H × W ωi ∈ \R ^{C × H × W} ωiRC×H×W ω i − 1 ∈ R C × H × W ω_{i−1} ∈ R ^{C × H × W} ωi1RC×H×W,这表明不同特征图的重要性

    • ω i = S i g m o i d ( B N ( P i ) ) ( 7 ) ω i − 1 = S i g m o i d ( B N ( P i − 1 ) ) ( 8 ) ω_i = Sigmoid(BN(P_i)) (7)\\ ω_{i−1} = Sigmoid(BN(P_{i−1})) (8) ωi=Sigmoid(BN(Pi))(7)ωi1=Sigmoid(BN(Pi1))(8)

    • 其中 BN 代表批量归一化。

  • 接下来,将来自不同阶段的权重信息 ωi 和 ωi−1 与特征权重阈值 Tc 进行比较,以获得捕捉空间信息强度的注意力图。随后,将来自不同层的强特征和弱特征分别聚合,以产生富集特征和弱特征

    • ( ω i u p , ω i l o w ) = T h r e s h o l d ( ω i , T c )    ( 9 ) ( ω i − 1 u p , ω i − 1 l o w ) = T h r e s h o l d ( ω i − 1 , T c ) ( 10 ) (ω ^{up}_ i , ω^{low}_ i ) = Threshold(ω_i, T_c)~~ (9) \\ (ω ^{up} _{i−1} , ω^{low} _{i−1} ) = Threshold(ω_{i−1}, T_c) (10) (ωiup,ωilow)=Threshold(ωi,Tc)  (9)(ωi1up,ωi1low)=Threshold(ωi1,Tc)(10)

    • 我们使用阈值函数来分离强特征信息和弱特征信息

  • 2)定向融合:将强注意力图 ω i u p ω^{up}_i ωiup ω i − 1 u p ω^{up}_{i−1} ωi1up 分别映射到特征Pc上,然后将这两个特征部分融合以生成丰富的特征。 同样,将弱注意力图映射到Pc上以生成弱特征。整个计算过程如下:

    • P u p = ( ω i u p ⊗ P c ) + ω i − 1 u p ⊗ P c ( 11 ) P l o w = ( ω i l o w ⊗ P c ) + ω i − 1 l o w ⊗ P c ( 12 ) P ^{up} = (ω ^{up}_ i ⊗ Pc ) + ω ^{up }_{i−1} ⊗ Pc (11)\\ P ^{low} = (ω ^{low}_ i ⊗ Pc ) + ω ^{low}_{i−1} ⊗ Pc (12) Pup=(ωiupPc)+ωi1upPc(11)Plow=(ωilowPc)+ωi1lowPc(12)

    • 其中 P u p ∈ R C × H × W P ^{up} ∈ R ^{C×H×W} PupRC×H×W 表示通过重建生成的丰富特征, P l o w ∈ R C × H × W P ^{low} ∈ R ^{C×H×W} PlowRC×H×W 表示通过重建生成的弱特征。

  • 3)特征变换:我们分别变换特征 P up 和 P low。对于富集的特征,我们应用 1×1 卷积来生成显示更多详细信息的特征图 P n e w u p P ^{up} _{new} Pnewup。对于弱特征,P low 被输入到特征变换单元 (FTU),该单元旨在使用更少的计算资源生成具有更丰富语义信息的特征图。如图 3 所示,我们采用深度可分离卷积,其计算和参数开销较低。由于深度可分离卷积会破坏通道间的信息流,因此我们在通道之间生成特征调制。在深度可分离卷积操作之后,我们执行加权映射以增强通道间的信息流。加权特征 α 通过自适应平均池化和卷积层进行处理,可以表示为

    • α = S o f t m a x ( T ( A ( P l o w ) ) )    ( 13 ) α = Softmax (T (A (P ^{low}))) ~~(13) α=Softmax(T(A(Plow)))  (13)

    • 其中T表示卷积变换层,A表示自适应平均池化层。

    • 在这里插入图片描述

    • 图3.FTU结构图。

  • 4)逐层融合:最后,我们将经过特征变换单元处理后的特征 P n e w l o w P ^{low} _{new} Pnewlow 与展示更多详细信息的特征图 P up new 进行合并,生成特征 Pm。该特征既包含详细信息,也包含跨通道信息交换。Pm 的计算如下:

    • P m = α P n e w l o w + P n e w u p P_m=\alpha P^{low}_{new}+P^{up}_{new} Pm=αPnewlow+Pnewup

    • 总体而言,我们使用 MFR 合并来自两个不同层的特征,从而丰富了特征,并增加了细节,同时减少了计算资源的使用。这种方法可以对各个特征进行特定的转换,从而最大限度地减少冗余特征的生成。

C. EFC as a Feature Fusion Strategy

  • 特征 Pf 紧随 GFF 的输出,展现了跨不同层次的关联特征,侧重于感知空间上下文。由 MFR 生成的特征 Pm 保留了小尺度目标的大量信息并增强了语义表达。生成的特征 Pk 是在更高层次上整合 Pf 和 Pm 的结果,确保了与小目标相关的空间和语义信息的连贯表示。EFC 取代了传统的直接融合操作,例如相邻特征的简单接触或添加方法。

D. Analysis on Complexities

  • 我们的 EFC 在特征融合阶段减少了大核卷积的使用,有助于最大限度地减少冗余特征的产生。我们分析了理论参数消耗,标准 3×3 卷积的参数计算为

    • P s t = 3 × 3 × C 1 × C 2    ( 15 ) P_{st} = 3 × 3 × C_1 × C_2 ~~(15) Pst=3×3×C1×C2  (15)

    • 其中 C1 和 C2 分别表示输入和输出特征通道的数量。

  • EFC 参数消耗主要发生在特征变换和特征相关阶段,GFF 和 MFR 的参数消耗分别记为 PG 和 PM ,计算公式如下:

    • P G = 1 × 1 × C 1 × 1 + n × ( 1 × 1 × C 1 / n × C 2 / n ) ( 16 ) P M = 3 × 3 × C 1 × 1 + 3 × 1 × 1 × C 1 × C 2 ( 17 ) PG = 1 × 1 × C_1 × 1 + n × (1 × 1 × C_1 /n × C_2/ n ) (16)\\ PM = 3 × 3 × C_1 × 1 + 3 × 1 × 1 × C_1 × C_2 (17) PG=1×1×C1×1+n×(1×1×C1/n×C2/n)(16)PM=3×3×C1×1+3×1×1×C1×C2(17)

    • 其中n表示组数。在实验中,我们设置通道数为C1=C2,n=4。我们的方法的内存占用明显小于标准卷积

EXPERIMENTS

  • 在本节中,我们使用三个广泛采用的基准来验证我们提出的方法的有效性:VisDrone 、UAVDT 和 MS COCO 。我们还进行了全面的消融研究,以彻底评估我们的贡献。

A. Datasets and Metrics

  • VisDrone 是一个以大量小物体为特征的数据集。它由 10 209 张高分辨率(2000 × 1500)航拍图像组成,分为十个类别(6471 张用于训练,548 张用于验证,3190 张用于测试)。由于评估服务器目前已关闭,我们无法在测试数据集上测试我们的方法。根据之前的工作,我们使用 6471 张图像进行训练,548 张图像进行测试。COCO 是用于一般物体检测的最广泛使用的数据集,包含 train2017 集中的约 118K 张图像和 val2017 集中的 5K 张图像用于训练和验证。 UAVDT 数据集包含 23 258 张训练图像和 15 069 张测试图像。图像分辨率约为 1080 × 540 像素。该数据集已针对三种车辆类别进行了手动注释:汽车、卡车和公共汽车。我们利用平均精度(mAP)作为评估准确度的指标。我们还使用 GFLOP 和 Params 来验证模型的复杂度。

B. Implementation Details

  • 我们基于 MMDetection 框架 实现了我们的方法。所有实验均在 NVIDIA GeForce RTX 3080 GPU 上进行。在 VisDrone 上,我们以批量大小 4 训练所有检测器 15 个 epoch,初始学习率为 0.01。该学习率遵循线性预热策略,在第 11 和第 14 个 epoch 时降低 0.1 倍。在 COCO 上,我们以批量大小 4 训练检测器 12 个 epoch,初始学习率为 0.01,在第 8 和第 11 个 epoch 后降低 0.1。在 UAVDT 上,我们使用初始学习率为 0.01 训练模型 6 个 epoch。 在第四和第五个 epoch 之后,学习率降低了 10 倍。在 VisDrone 和 COCO 上,输入图像大小设置为 1333 × 800。在 UAVDT 上,输入图像大小设置为 1024 × 540。我们使用 GFL 和 RetinaNet 作为基础检测器。在 VisDrone 数据集上,颈部的输出通道默认设置为 512。所有其他参数均根据 CEASC 指南进行配置。

C. Results on VisDrone Dataset

  • 1)在不同检测器上的评估:EFC 可以灵活地集成到利用 FPN 网络的各种最先进的基线检测器中。为了验证该方法的有效性,我们使用各种骨干网络将其与不同的最先进的基线检测器(包括 GFL 和 RetinaNet)相结合。表一中所示的结果证明,通过结合我们的方法,与基线模型相比,参数数量和 GFLOP 都减少了,而检测精度却提高了。具体来说,通过用我们的方法替换 RetinaNet 中的 FPN,检测精度(AP)提高了 3.1%,而模型的计算负荷降低了 17.7%。使用 GFL 作为基础检测器,我们的方法实现了 30.1 mAP。这凸显了我们的方法在小物体检测方面的优势。值得注意的是,与原始 FPN 网络的瓶颈相比,使用我们的方法可将 GFLOP 减少 42.7%,将 Params 减少 20.1%。

    • 在这里插入图片描述

    • 表一 与 VISDRONE 验证集上最先进方法的比较。“-”表示结果未报告或不公开

  • 2)与最新方法的比较:我们报告了将我们提出的方法与最先进的轻量级方法进行比较的结果,包括轻量级骨干网络ShuffleNet V2 和MobileNet V2 ,以及轻量级检测头QueryDet 和CEASC 。为了公平比较,我们的方法采用与QueryDet和CEASC相同的数据增强技术。 如表 I 所示,我们的方法显着提高了检测精度,同时减少了参数和GFLOP。 使用GFL作为基线,通过替换轻量级骨干网络MobileNet V2和ShuffleNet V2,它们的精度改进很小。使用轻量级检测头CEASC,虽然GFLOP大大减少,但检测精度的提高却很小。使用GFL作为基础检测器,我们的方法与基线模型和CEASC相比分别将检测精度mAP提高了1.7%和1.4%。我们的方法通过颈端的融合方法,大大提高了小目标的检测精度,实现了模型复杂度和检测精度的平衡,并且可以与其他轻量级方法同时使用。

  • 3)检测结果可视化:为了更直观地说明我们方法的优势,我们在图 4 中可视化了基线模型和我们方法的热图。 从结果可以看出,我们的方法改善了小物体的感受野,特别是在目标密集且距离相机较远的区域,从而获得了更好的检测结果。这种优越的性能归功于我们的特征融合过程,它减少了小物体信息的丢失并增加了特征之间的相关性。

    • 在这里插入图片描述

    • 图 4. VisDrone 上的检测结果和热图可视化。突出显示的区域表示网络关注的区域。这证明了所提出的 EFC 方法在小物体检测方面的卓越性能。

D. Results on UAVDT Dataset

  • 1)与最佳方法的比较:UAVDT数据集包含大量小目标,包括许多低光、复杂背景图像,这更能体现网络在小目标检测中的表现。在表II中,我们报告了我们的方法在UAVDT数据集上的表现。使用GFL作为基线模型,我们在AP50上实现了2.0%的提升,超越了许多最佳方法。与最新的轻量级方法CEASC相比,我们的检测精度在AP上提高了0.9%,在AP50上提高了0.6%,在AP75上提高了1.1%。结果表明,我们的方法在无人机图像的目标检测中表现良好。

    • 在这里插入图片描述

    • 表二 UAVDT 与最先进探测器的比较。“−”表示结果尚未报告或不公开

  • 2)可视化性能:小目标信息容易被环境噪声淹没,导致小目标细节极其有限。此外,在弱光条件下,目标往往会融入背景中,使检测变得具有挑战性。我们的方法专注于整合这些有限的小目标信息以实现高级特征表达。如图5所示,我们在弱光条件下可视化了检测性能,并将其与其他最先进的方法进行了视觉比较。从图中可以看出,ClusDet ,DREN 和GFL很难检测到一些与背景相似的目标,因此容易受到背景干扰。相比之下,我们的方法有效地利用了有限的小目标信息来检测目标,证明了其优越性。

    • 在这里插入图片描述

    • 图 5. ClusDet、DREN、GFL 和本文方法在 UAVDT 低光和相似背景条件下的检测结果可视化。左侧是待检测的原始图像,右侧是不同方法检测到的局部效果图像。红色框为真实值,绿色框为预测,紫色框代表我们方法的优势检测结果。

E. Results on COCO Dataset

  • 1)定量评估:COCO 数据集应用广泛,包含许多小物体。我们使用我们的方法对不同的基线模型进行定量比较,并将其与一些最先进的方法进行比较。表三总结了 COCO 2017 test-dev 上的结果。我们的方法还显示出在这个通用数据集上的检测精度有显著的提高。值得注意的是,我们使用了不同的基线模型来证明我们的方法可以广泛应用于各种检测器,并可以进一步提高最先进方法的性能。使用 RetinaNet 和 GFL 作为基线模型,我们的方法分别将 APS 提高了 1.7% 和 1.4%。实验结果表明,我们的方法不仅适用于无人机图像中的小物体检测,而且适用于一般的小物体检测任务。

    • 在这里插入图片描述

    • 表三 与 COCO TEST-DEV 上最先进检测器的比较。“-”表示结果未报告或不公开

  • 2)特征图可视化:为了研究我们方法的特征表示,我们将特征金字塔的第一层特征图可视化,并将其与基线模型进行比较。如图6所示,与基线模型相比,我们的方法集成了更丰富、更具代表性的特征。

    • 在这里插入图片描述

    • 图 6. RetinaNet 和我们的方法在 COCO 数据集上的定性结果比较。红框是基本事实,绿框是预测。 特征图来自特征金字塔的第一阶段。颜色越亮,表示模型越关注该区域。

F. Ablation Study

  • 在本节中,我们进行了全面的消融实验,以分析 GFF 和 MFR 中关键组件的影响。值得注意的是,所有消融实验均在 VisDrone 数据集上进行,以 GFL 为基线模型,以 ResNet18 为主干网络。

  • 1)各组件有效性:为了验证EFC融合策略的有效性,我们用我们提出的方法替换传统的融合结构,并对其两个关键组件GFF和MFR进行消融实验。基线模型采用经典的 FPN 和 PAFPN 结构。如表 IV 所示,与基线模型相比,我们方法的各个组件都显著提高了检测精度。GFF增强了特征之间的相关性,加强了小物体跨特征的依赖性,从而可以感知更多的语义信息。这使得与基线模型相比,AP增加了1.2%。 MFR取代了颈部的3×3卷积,大大减少了颈部消耗的计算资源。与PAFPN相比,参数数量和GFLOP分别减少了23.1%和8.8%。此外,通过重构特征,深度卷积中小物体信息的丢失得到缓解,导致检测精度提高1.0%。

    • 在这里插入图片描述

    • 表 IV VISDRONE 上以 GFL 为基线探测器的 GFF 和 MFR 消融情况

  • 2)GFF 上的消融研究:我们分别评估了感知上下文信息的空间注意机制、分组单元的数量以及 GFF 内的 MFF-GN 结构。为了从不同的层捕获上下文信息,我们使用空间注意进行聚焦。我们将这种方法与其他几种上下文感知方法进行了比较,例如 Point-wise、CBAM 和标准 3×3 卷积。如表 V 所示,与上述方法相比,利用空间注意模块凸显了其在准确性和资源利用率方面的优势。标准 3×3 卷积实现了几乎相同的检测精度,但是,这是以高计算资源为代价的。我们的方法以最低的 GFLOP 和 Params 实现了最佳检测性能

    • 在这里插入图片描述

    • 表五 比较 VISDRONE 上获取空间信息的不同方法

  • 接下来,我们研究了组数对检测准确率的影响,如表 VI 所示。结果表明,将组数设置为 4 可以在检测准确率和效率之间取得良好的平衡。

    • 在这里插入图片描述

    • 表 VI 在 VISDRONE 数据集上进行不同组数的消融实验

  • 为了增强不同层间特征的空间映射并改善原始空间中小物体特征的表示,我们采用 MFF-GN 进行归一化。为了评估 MFF-GN 的性能,我们将其与其他归一化技术(如 BN 、组归一化 (GN) 、可切换归一化 (SN) 、实例归一化 (IN) 和标准 1×1 卷积)以及未进行归一化的基线检测器进行了比较。如表 VII 所示,与其他归一化方法相比,MFF-GN 实现了最佳检测准确率。它在 AP 上比 GN 高出 0.2%,并且还展示了更高的计算资源利用率。

    • 在这里插入图片描述

    • 表 VII 不同归一化方法对 VISDRONE 的比较

  • 3)MFR 消融研究:我们分别对重建的强特征和弱特征进行变换,旨在保留丰富的特征并转换较弱的特征。这种方法有助于在节省计算资源的同时保留小物体的更多细微信息。对于强特征,我们使用 1×1 卷积对其进行细化,而使用轻量级计算方法对弱特征进行变换。为了验证我们的变换模块的优越性,我们将 FTU 与其他轻量级卷积模块进行了比较,包括深度可分离卷积 、组卷积 和部分卷积 。如表 VIII 所示,该表明确表明,FTU 模块在性能方面超越了其他方法,同时消耗了更少的计算资源,在准确性和效率之间实现了值得称赞的平衡。具体而言,与 DWConv、GConv 和 PConv 相比,AP 分别提高了 0.6%、0.3% 和 0.4%。此外,3×3 标准卷积和 FTU 达到了相似的准确度水平,但 GFLOP 和 Params 显著增加。

    • 在这里插入图片描述

    • 表 VIII VISDRONE 上不同轻量卷积方法特征变换的比较

  • 为了凸显分别变换强弱特征的优势,我们设计了一系列变体实验来证明我们的配置是最优的。 如表 IX 所示,通过 FTU 增强弱特征以改善特征信息,而用 1×1 卷积处理强特征以揭示更详细的信息。此过程实现了高级特征变换,有助于增强小物体信息的表示。

    • 在这里插入图片描述

    • 表 IX 强弱特征变换中不同成分配置对 VISDRONE 的影响比较。 P UP 和 P LOW 分别代表强弱特征

CONCLUSION

  • 在本文中,我们提出了一种 EFC 轻量级融合策略 (EFC),其中包括 GFF,以增加特征之间的相关性并增强小物体信息的空间映射。我们还引入了 MFR,旨在分离和重建来自不同层的特征,利用轻量级操作进行定向特征变换。 这种方法减少了深度网络中小物体信息的丢失,并最大限度地减少了不相关特征的提取。值得注意的是,我们提出的方法可以灵活地集成到 FPN 网络中。在 VisDrone、UAVDT 和 COCO 上的大量实验结果证明了 EFC 在小物体检测中的有效性,并显著减少了颈部的计算资源。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

羞儿

写作是兴趣,打赏看心情

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值