COMO: Cross-Mamba Interaction and Offset-Guided Fusion for Multimodal Object Detection 论文精读笔记

论文链接:[2412.18076] COMO: Cross-Mamba Interaction and Offset-Guided Fusion for Multimodal Object Detection

代码链接:luluyuu/COMO  (暂时没有上传代码)


摘要

单模态目标检测任务在面对多样化场景时,性能往往会出现下降。相比之下,多模态目标检测任务通过整合来自不同模态的数据,能够提供更全面的目标特征信息。

目前的多模态目标检测方法通常采用各种融合技术,包括传统的神经网络和基于Transformer的模型,来实现特征融合策略并获取互补信息。

然而,由于多模态图像是由不同的传感器捕获的,它们之间往往存在不对齐的问题,这使得直接匹配变得具有挑战性。这种不对齐阻碍了在不同模态之间为同一目标建立强相关性。

在本文中,我们提出了一种新颖的方法,称为跨模态交互与偏移引导融合(COMO)框架,用于多模态目标检测任务。

COMO框架采用跨模态技术来构建特征交互方程,实现多模态序列化状态计算,从而在减少计算开销和提高效率的同时,生成交互式融合输出。

此外,COMO利用受不对齐影响较小的高层特征来促进模态间的交互和互补信息传递,解决了因相机角度和捕获时间变化引起的位置偏移问题

进一步地,COMO在跨模态模块中引入了全局和局部扫描机制,以捕捉具有局部相关性的特征,特别是在遥感图像中。

为了保留低层特征,偏移引导融合机制确保了多尺度特征的有效利用,从而构建了一个多尺度融合数据立方体,提升了检测性能。

所提出的COMO方法已在由RGB和红外图像对组成的三个基准多模态数据集上进行了评估,展示了在多模态目标检测任务中的最先进性能。它为遥感数据提供了一种定制化的解决方案,使其更适用于实际场景。


一、引言

目标检测任务能够快速解析图像并识别目标位置。作为计算机视觉中的关键任务,它已广泛应用于自动驾驶、遥感和医学影像等多个领域。然而,在复杂环境中,如低光照条件、多变天气和部分遮挡情况下,单模态目标检测的性能会因无法有效捕捉目标的显著特征而下降

多模态视觉数据由不同传感器(如RGB相机、红外传感器、激光雷达和雷达)获取的图像组成,为目标检测提供了更丰富的特征属性。通过整合多模态数据,可以利用互补信息,使目标在不同场景中表现出独特且显著的特征。近年来,多模态融合技术的进步显著提升了检测性能。像素级融合特征级融合决策级融合等方法能够有效整合多模态数据。这些方法充分利用多模态数据的互补性,最大化目标的信息量,从而在复杂环境中提高检测精度和鲁棒性。

尽管取得了这些进展,多模态目标检测任务仍面临一些挑战。其中之一是不同传感器数据之间的不对齐问题这种不对齐可能是由相机角度、捕获时间或传感器特性的差异引起的,导致目标位置和特征的偏差。

如图1所示,捕获时间和相机角度差异引起的不对齐问题是遥感多模态数据融合任务中的常见挑战。

- 关于捕获时间问题,遥感数据通常来自机载平台,如卫星和无人机,这些平台提供了高视角和广覆盖范围。在捕捉高速移动目标时,即使拍摄间隔很短,目标的快速移动也会导致显著的位置变化,从而产生明显的偏移。这种位置偏移会损害检测的准确性,尤其是在需要精确目标识别和跟踪的应用中。

- 关于相机角度问题,在多模态数据采集中,通常使用两个或多个相机进行同时拍摄,如光学相机和红外相机。然而,相机位置和视角的差异往往会导致同一目标在不同模态中的成像位置不对齐。这些偏差使数据对齐和融合变得复杂,可能降低应用精度,并阻碍跨模态目标之间强相关性的建立,从而使多模态数据中的目标检测更具挑战性。

更严格地说,我们分析了DroneVehicle数据集(一个大规模无人机多模态数据集,Sun等,2022)中的不对齐问题。结果表明,高达35%的标签存在偏移问题,其中一些标签显示出显著的位移,如图2所示。

像素偏移在1到5像素之间的目标占所有不对齐目标的90%以上。这对多模态检测的准确性产生了重大影响。因此,考虑偏移校正的有效融合策略对于提升多模态遥感目标检测任务的性能至关重要

此外,与单模态数据相比,多模态数据本身包含更多信息,这增加了数据处理所需的时间。近年来,特征级融合方法越来越受欢迎,并取得了越来越精确的结果。然而,这些方法中采用的双分支特征提取结构和多尺度融合机制显著增加了计算资源需求和处理时间。为了解决这一问题,有必要开发高效的多模态融合策略,在保持高检测精度的同时简化模型以实现实时处理

在本研究中,为了减轻不对齐效应、减少计算资源和时间消耗,并提升多模态目标检测性能,我们提出了一种新方法:跨模态交互与偏移引导融合(COMO)框架。COMO框架引入了新颖的Mamba技术,开发了跨Mamba方法,通过构建特征交互方程实现序列化状态计算。与当前基于Transformer的方法相比,这种方法减少了计算负载和时间消耗。此外,COMO利用不易出现错配的高层特征来促进模态间交互和信息融合,解决因相机角度和捕获时间变化引起的位置偏移问题。COMO还在跨Mamba方法中引入了全局和局部扫描机制,以捕捉包含全局序列信息和局部相关性的特征,特别是在遥感图像中。为了保留低层特征,偏移引导融合机制确保了多尺度特征的有效利用,从而最大化可用信息。在三个基准数据集上的评估表明,COMO在多模态目标检测任务中展现了最先进的性能,并为遥感应用提供了一种定制化解决方案,增强了其实际应用价值。

总结来说,我们的贡献包括以下三个方面:

  • 提出了一种多模态目标检测框架,以解决多模态图像中的偏移问题。该框架采用Mamba交互方法促进模态间信息交换和互补融合,并集成了全局和局部扫描机制以捕捉全局和局部相关特征。
  • 设计了一种偏移引导融合方法,以解决仅依赖高层特征进行交互时低层特征丢失的问题。该方法通过高层特征引导低层特征的融合,从而最大化信息保留并最小化偏移的影响。
  • 在三个不同视角的基准数据集上进行了实验,并将我们的方法与多种相关方法进行了比较。结果表明,我们提出的方法在多样化场景中均实现了最优性能。此外,我们细致地分析了模型组件的影响,证实了该方法能够有效满足实际应用需求。

二、相关工作

近年来,由于单模态方法在复杂环境中的局限性,视觉多模态融合和目标检测的研究受到了广泛关注。本节回顾了视觉多模态融合、多模态目标检测以及一个著名的深度学习模型——Mamba模型的关键贡献。

2.1 视觉多模态融合

单模态数据极易受到环境变化的影响,通常会导致检测效果不佳。例如,RGB图像在清晰条件下可能表现良好,但在夜间或多云等复杂场景中其效果会显著下降。引入额外的视觉模态可以通过弥补这些局限性来显著增强视觉任务的鲁棒性。视觉多模态融合利用来自多个传感器或模态(如RGB、红外)的数据来丰富目标的特征表示。为了充分利用多模态之间的互补信息,研究者提出了多种融合方法。

早期的融合方法可以分为两类:基于变换域的方法和基于空间域的方法。变换域融合方法是早期研究的重点,典型方法包括小波变换、曲波变换和拉普拉斯金字塔。这些方法通过在不同尺度和频率上分解和重建图像信号,能够有效保留多模态图像中的细节信息。Li等回顾了像素级融合技术的发展,指出小波和曲波等变换技术在图像融合中的广泛应用。随着研究的发展,结合小波变换和深度学习的多模态图像融合方法也逐渐出现。Deng和Dragotti提出了一种结合小波变换的融合方法,展示了更好的性能。

基于空间域的图像融合方法直接处理原始图像的像素值,并利用局部特征、空间频率或梯度信息进行融合。这些方法通过拉普拉斯金字塔、非下采样轮廓波变换(NSCT)等方式分解和重建图像,更适合处理图像中的边缘和细节信息。例如,Burt和Adelson提出的拉普拉斯金字塔成为多模态图像融合的经典方法,后来广泛应用于遥感、医学等图像处理领域。Nejati等提出了一种基于卷积稀疏表示的多焦点图像融合方法,在多焦点融合应用中取得了良好效果。

近年来,随着深度学习技术的发展,卷积神经网络(CNN)和生成对抗网络(GAN)等深度学习模型逐渐应用于多模态图像融合。深度学习方法能够自动学习图像特征并进行端到端的融合处理,显著提高了融合的准确性和效率。Liu等(2016)首次将CNN引入红外和可见光图像融合,展示了深度学习方法在融合任务中的潜力。Zhang和Demiris(2023)进一步研究了基于深度学习的红外和可见光图像融合方法,在复杂环境中实现了高质量的图像融合。此外,生成对抗网络(GAN)的引入也为图像融合提供了新思路。Goodfellow等(2014)提出的GAN模型在图像生成和重建中表现出色。Rao等(2023)成功利用GAN实现了多模态图像融合,展示了比传统方法更好的效果。深度学习技术的引入为图像融合领域带来了巨大创新,但训练时间长、需要大量数据以及模型可解释性差仍然是其缺点,也是未来研究的重点。

2.2 多模态目标检测

与旨在获得更好可视化效果的多模态图像融合不同,多模态目标检测任务以结果为导向,更具任务特异性。视觉多模态目标检测通过整合多模态数据来增强检测性能,扩展了传统的目标检测任务。其目标是利用不同模态之间的互补信息来提高目标检测的鲁棒性和准确性,尤其是在复杂环境、恶劣天气或遮挡情况下。

根据融合策略,多模态目标检测可以分为像素级融合、特征级融合和决策级融合方法。

像素级融合直接将来自不同模态的原始数据(如RGB图像和红外图像)拼接或叠加,并将其输入到同一个目标检测网络中。这种方法通常不区分模态,而是将所有数据统一作为网络的输入。由于直接拼接后检测的效果不理想,YOLOrs(Sharma等,2020)提出了一种两阶段融合方法,即使用深度卷积网络分别从每个模态中提取特征,然后通过拼接和逐元素交叉积操作融合提取的特征,以最大化融合数据体中的信息。SuperYOLO(Zhang等,2023a)提出了一种称为多模态融合(MF)的方法,从各种数据中提取互补信息以改进遥感中的小目标检测任务,并率先引入超分辨率分支以增强骨干特征提取网络的准确性。

特征级融合方法以多尺度特征融合和更丰富的信息保留为特点,增强了模型的鲁棒性,强化了泛化能力,并减少了信息损失,因此在当前研究中特别受欢迎(Guo等,2020)。许多方法(Qingyun等,2021;Shen等,2024;Xiao等,2024;Song等,2024)被提出以不断提高多模态目标检测的效果。CFT(Qingyun等,2021)率先将Transformer框架应用于多模态目标检测领域,其原理是将多模态数据块拼接并同时输入到自注意力结构中,以获得模态间的全局注意力结果。ICAFusion(Shen等,2024)则利用交叉注意力机制实现模态间特征交互融合。CMADet(Song等,2024)旨在解决两种模态之间的数据不对齐问题,实现多尺度特征对齐和检测。GM-DETR(Xiao等,2024)利用最先进的RT-DETR框架,并提出了一种新颖的训练策略,即模态互补策略。通过两阶段训练,可以使模型获得更好的模态适应效果。OAFA(Chen等,2024a)是另一种考虑模态间特征不对齐的多模态检测方法,其方法重点是通过在共享子空间内获取模态不变特征来减轻模态差异对多模态空间匹配的影响,从而估计精确的偏移值。

决策级融合方法中,首先为每个模态独立训练目标检测器,然后使用投票、加权平均等技术将每个检测器的结果组合以得出最终检测结果。MFPT方法(Zhu等,2023)通过模态内和模态间变换增强个体模态特征,最终实现了一种基于特征的增强决策级融合方法。

多模态数据由两个或多个传感器获取,这些传感器并排放置并以不同的视场角获取数据。此外,不同传感器之间存在数据采集时间差异,这对高速移动的目标产生了巨大影响。因此,在进行数据融合时,必须考虑数据之间的偏移问题。同时,与单模态目标检测相比,多模态目标检测具有更多的多分支特征提取网络和特征融合模块,因此时间消耗增加。为了使多模态目标检测模型具有实时能力,需要在提高检测精度的同时简化模型。

2.3 Mamba模型

Mamba模型(Gu和Dao,2023)是近年来出现的一种高效的序列特征提取模型。其核心思想是在序列建模中选择性地使用状态空间模型(SSM),以平衡建模能力和计算效率。与传统的循环神经网络(RNN)或自回归模型(如Transformer)相比,Mamba通过利用高效的状态空间模型,在处理长序列时保持了线性时间复杂度。因此,即使序列长度增加,它也能高效地进行计算。当应用于计算机视觉领域时,Mamba在各种任务中取得了优异的性能。

Vision Mamba(Zhu等,2024)是第一个将Mamba模型从自然语言处理引入计算机视觉的方法。它借鉴了ViT(Dosovitskiy,2020)的思想,提出了一种双向扫描机制,将图像数据序列化,从而使整个模型能够实现全局注意力和特征关联。它证明了Mamba模型在广泛视觉任务中的有效性,为计算机视觉领域开辟了新的路径。

ChangeMamba(Chen等,2024b)首次探索了Mamba架构在遥感变化检测任务中的潜力。U-Mamba(Ma等,2024a)设计了一种混合CNN-SSM模块,将卷积层的局部特征提取能力与SSM捕捉长程依赖关系的能力相结合,用于医学图像分割领域。FusionMamba(Xie等,2024)探索了SSM模型在图像融合领域的潜力,利用Mamba模型设计了一种U-Net结构,以融合来自两种模态的数据。LocalMamba(Huang等,2024)引入了一种新颖的局部扫描策略,将图像划分为不同的窗口,以高效捕捉局部依赖关系,同时保持全局视角。

这些研究表明,Mamba模型在计算机视觉任务中具有广泛的应用前景,能够有效提升模型的性能和效率。


三、方法

本节详细介绍了COMO方法的整体结构,如图3所示。我们首先介绍COMO方法的整体框架,随后详细描述其关键组件:Mamba交互模块全局和局部扫描方法以及偏移引导融合模块

3.1 整体结构

给定一对可见光和红外图像x_{rgb},x_{ir},所提出的COMO方法通过执行模态间交互和融合,获得超越单一模态的检测结果。

具体来说,x_{rgb}x_{ir}通过两个结构相同的CNN骨干网络,提取每个模态的显著特征,从而获得多尺度特征提取结果\left \{ {S_{3}^{ir},S_{4}^{ir},S_{5}^{ir},S_{3}^{rgb},S_{4}^{rgb},S_{5}^{rgb}}\right \}(这些特征图来自骨干特征提取网络的第3、4、5阶段)。

为了最小化偏移对融合的影响,仅选择CNN网络提取的最高层特征\left \{ S_{5}^{ir},S_{5}^{rgb} \right \}用于Mamba交互模块。

多尺度特征提取结果\left \{ {S_{3}^{ir},S_{4}^{ir},S_{3}^{rgb},S_{4}^{rgb}}\right \}与高层交互特征\left \{ F_{5}^{ir},F_{5}^{rgb} \right \}一起输入偏移引导融合网络,以实现无偏融合。最终结果由检测头在偏移引导融合网络后生成。

为了在实时性能和准确性方面为模型提供优势,必须谨慎处理偏移问题。与以往方法不同,我们选择使用最高层特征作为交互特征。这一决策基于以下事实:高层数据包含目标的语义信息,其空间感受野内的最大偏移对低层特征的影响较小。这种关系可以通过以下公式解释:

 其中,Δx和Δy是偏移量,对于多模态图像对来说是固定的。w_{blk}h_{blk}​是不同下采样级别的图像块的宽度和高度。由于偏移量是固定的,需要更大的w_{blk}h_{blk}以获得更大的交集面积A_{intersection}。同时,仅使用高层特征进行模态间交互可以显著减少计算量,提高模型的实时性能。

为了保留低层特征并避免与目标检测颈部的融合结构重复,我们设计了偏移引导融合方法。该方法减少了计算量和处理时间。同时,使用受偏移影响较小的高层特征作为桥梁来连接模态,有助于减轻偏移对低层特征的影响,从而确保这些特征的有效利用。我们在YOLOv5中实现了所提出的方法,以便在同一框架内与其他方法进行比较,并在YOLOv8中基于新的基线框架实现了性能提升。


3.2 Mamba交互模块

Mamba 交互模块如图 4 所示。

它由两个模块组成:单模态 Mamba 模块跨模态 Mamba 模块

为了利用 Mamba 的高效特征提取能力,我们首先实现两个单模态 Mamba 模块,从单模态数据中提取特征。这些模块将 CNN 骨干网络的输出序列化,通过多种扫描模式捕捉全局历史状态信息。模块通过重复应用这些操作将提取的特征转化为序列。该方法专门用于包含丰富语义信息且受空间偏移影响较小的高层特征S_{5}^{ir}S_{5}^{rgb} ​。

对于输入特征 S_{in},我们应用自适应最大池化平均池化构建特征矩阵 F_{in}\in \mathbb{R}^{H\times W\times C},以确保不同图像尺寸下维度的一致性:

然后,我们对F_{in}进行深度特征映射,并添加 Dropout 操作,从而使模型具有自适应性

其中,h是映射过程中隐藏特征的通道数,是线性映射操作,Drop(⋅) 表示以一定概率随机丢弃神经元,Silu(⋅)是非线性化的激活函数。得到的张量 F_m 随后被展平为token序列,模拟状态空间模型算法的序列数据。

为了减轻两级空间信息的丢失,我们引入了一个可学习的位置嵌入 ,提供显式的位置编码。最后,我们建立shortcut数据流以进行操作,保持原始特征提取的完整性。接下来,I_{in}将在四个方向上进行扫描,扩展序列化方法并添加位置编码,从而扩展数据分布。然后,每个方向的扫描结果分别通过 S6 模块进行序列特征状态空间模型特征提取,得到四个输出 y_i

其中,cross_scan(⋅)表示四方向扫描方法,如图 4 所示。S6(⋅)是 Mamba 模型的状态空间模型(SSM)结构。reverse_scan(⋅)表示y_i在特征提取后需要通过cross_scan(⋅) 的反向扫描过程,以恢复其在原始序列结构下的特征表达。


S6 模块是 SSM 模型的增强版本,作为一个连续系统,它可以通过隐藏状态空间方程将一维输入 映射到携带历史状态的输出

其中,A是演化参数,B 和 C 是投影参数,D 是跳跃连接。由于历史状态影响 SSM 模型的输出,它在序列数据处理中具有强大的能力。


当 SSM 应用于深度学习领域时,序列数据需要离散化。Gu 和 Dao(2023)引入了一个时间尺度参数 Δ∈R,将连续参数 A 和 B 转换为离散参数\bar{A}\bar{B}。通过采用零阶保持(ZOH)作为变换算法,离散参数表示如下:

其中,


之后,离散化的状态空间方程可以表示为:

其中,x_t表示离散化的输入数据,而不是连续函数y_t是该状态的输出。


最终输出是所有状态的结果集合:

其中,L是序列长度,等于H×W,Y_s是单模态 Mamba 模块的输出。

我们构建了 n 个结构相同的单模态 Mamba 模块,以深度提取状态空间特征。


受 Fusion-Mamba 架构的启发,我们开发了跨模态 Mamba 模块,以促进多模态数据之间的特征交互。与单模态 Mamba 模块不同,跨模态 Mamba 模块以多模态输入为基础进行特征交互。其计算过程如下:

其中,F_{s}^{1}​ 和F_{s}^{2} 是跨模态 Mamba 模块的多模态输入。


CS6 是跨模态 Mamba 模块的核心计算方法,具体如下:

其中,x_{t}^{1}x_{t}^{2}表示两种模态数据的序列化状态输入。核心思想是将第一种模态的输入作为历史状态,与第二种模态的输入进行交互。这种交互生成了深度互联的跨模态数据,从而构建了互补的数据结构。

然后,两个 CS6 模块的输出根据公式 (8) 拼接,得到最终输出F_{5}^{tgb}F_{5}^{ir}


3.3 全局与局部扫描方法

Mamba 模型的核心是 S6 模块,它擅长处理一维因果序列数据。然而,在视觉图像中,典型的图像序列化方法通常依赖于全局序列扫描方法,类似于 Vim和 VMamba中的全局序列建模。虽然这种方法在语言建模中非常有效(理解连续单词之间的依赖关系至关重要),但它与图像中二维空间关系的非因果性质并不一致。

简单的全局序列化扫描会削弱模型有效辨别这些空间关系的能力。与 Transformer 不同(Transformer 计算所有空间位置之间的关系),Mamba 模型专注于相邻位置之间的状态关系

在遥感图像中,对象与全局上下文之间的关系通常不如视觉图像中那样关键。因此,使用全局扫描可能会削弱 Mamba 模型的优势,因为全局扫描会减弱分布在局部区域中的对象之间的关联。

为了解决这个问题,我们提出了局部扫描方法(LS)它将图像划分为不同的窗口,以捕捉局部依赖关系,同时高效地保持全局视角。这种策略使模型能够专注于每个窗口内的局部关系,同时仍然考虑全局上下文。

通过将局部扫描引入 Mamba 模型,我们旨在增强模型在视觉图像中捕捉空间关系的能力,特别是在遥感应用中。

如图 5 所示,LS 方法将图像划分为多个窗口,并依次扫描每个窗口。局部窗口大小是一个超参数,可以根据具体任务需求进行调整。我们将窗口大小设置为最多为图像大小的三分之一,以确保模型能够有效捕捉局部依赖关系。

如图 4(b) 所示,在跨模态 Mamba 模块中,我们添加了 2 个方向的局部扫描,构建了全局与局部扫描方法,使 Mamba 交互模块能够同时捕捉局部和全局空间关系,从而增强其在视觉多模态目标检测任务中的性能。


3.4 偏移引导融合

为了解决高层特征受偏移影响较小但缺乏低层纹理细节的局限性,我们设计了一个偏移引导融合模块

该模块通过自上而下的特征金字塔网络(FPN)自下而上的路径聚合网络(PAN)将交互后的高层特征与低层特征进行融合。这一过程使高层特征能够引导低层特征,缓解偏移问题,同时保留低层信息。同时,它将融合模块与目标检测颈部模块结合,避免结构重复,从而减少参数数量和计算时间。

该模块通过两个分支运行:自上而下的 FPN自下而上的 PAN。偏移引导融合方法是一个多级融合模块,如图 6 所示。它利用无偏移的高层特征来指导跨多个尺度的低层特征融合。

具体来说,如图中所示,融合结构接收三种类型的输入数据:来自两种不同模态的高层特征低层特征。通过实现通道重建通道残差保留,该方法构建了一个双分支特征融合模型,最大化信息流并实现偏移引导融合。详细过程如下:

其中,x 是拼接后的输入特征,ConvBlock_i(\cdot )是卷积通道残差保留块,RepBlock_i(\cdot )是通道重建块。

融合过程在多个尺度上进行,其中高层特征指导低层特征的融合。

这种方法有效缓解了偏移问题,同时保留了低层纹理细节,从而提高了模型在多模态目标检测任务中的性能。


4. 实验

我们展示了实验设置和结果,以验证 COMO 方法在多模态目标检测任务中的有效性。实验结果表明,COMO 方法在多模态目标检测任务中实现了最先进的性能。

4.1. 实验设置

为了全面比较模型的性能,我们选择了三个数据集作为基准:DroneVehicle(Sun 等,2022)、LLVIP(Jia 等,2021)和 VEDAI(Razakarivony 和 Jurie,2016)。每个数据集的详细统计信息如表 1 所示。

对于比较算法,我们选择了几个高度相关的方法并精确复现,以获得可比较的结果。这些方法包括 YOLOrs(Sharma 等,2020)、CFT(Qingyun 等,2021)、SuperYOLO(Zhang 等,2023a)、GHOST(Zhang 等,2023b)、MFPT(Zhu 等,2023)、ICAFusion(Shen 等,2024)、GM-DETR(Xiao 等,2024)、DaFF(Althoupety 等,2024)和 CMADet(Song 等,2024)。

我们使用两个基线目标检测器 YOLOv5 和 YOLOv8 实现了 COMO 方法。所有实验均在 NVIDIA RTX3090 GPU 上进行。

在所有实验中,训练数据和测试数据的大小设置为 640×640 像素。对于大规模的 DroneVehicle 和 LLVIP 数据集,我们使用较小的 YOLOv5s 和 YOLOv8s 模型架构作为基准,将训练轮数设置为 150,以减少训练时间和资源消耗。对于较小的 VEDAI 数据集,我们选择较大的 YOLOv5l 模型,并将训练轮数增加到 300,以最大化准确性。为了获得更准确的实验结果并加速收敛过程,我们选择在 COCO 数据集预训练的基础模型作为初始权重。我们还使用了 Mosaic 数据增强方法来扩展数据。在测试阶段,所有方法的批量大小设置为 32,我们使用 FPS 来衡量预测速度,并且未使用 FP16 或 TensorRT 等加速方法,以确保比较的公平性。

4.2. 评估指标

我们使用 MSCOCO(Lin 等,2014)引入的标准平均精度(mAP)作为多模态目标检测任务的主要评估指标。mAP 是所有类别平均精度(AP)的均值。AP 是通过改变置信度阈值获得的精确率-召回率(P-R)曲线下的面积。我们使用交并比(IoU)阈值为 50% 的 mAP(mAP50)作为补充评估指标,其中 mAP50 是通过对所有类别在 IoU 阈值为 50% 时的 AP 取平均计算得出的。实验结果表中加粗表示最佳结果,下划线表示次佳结果。

4.3. 实验 1:DroneVehicle 数据集

DroneVehicle 数据集是一个大规模数据集,包含无人机在各种场景下捕获的图像,具有高度代表性。它提供了总共 28,439 对 RGB 和红外图像,涵盖白天和夜间场景。它由五类目标组成:汽车、卡车、公交车、货车和货运车。由于两种模态之间的位置偏移,需要特别考虑以实现最佳检测结果。数据集包括两种标注格式:水平框和旋转框标注,每种模态有单独的标签。对于训练,我们选择了 17,990 对图像,对于测试,我们使用了 1,469 对图像。红外模态的标注文件被用作训练和测试的真实标签。我们将所提方法与 9 种最先进的方法在 DroneVehicle 数据集上的结果进行比较,如表 2 所示,P-R 曲线如图 7 所示。

我们的方法在 mAP50 和 mAP 指标上均取得了最佳结果,在 YOLOv8s 基线上分别达到 86.1% 和 65.5%。此外,我们的方法在 YOLOv5s 基线上也优于其他方法,在 mAP50 和 mAP 指标上分别达到 85.3% 和 63.4%。这些结果证明了 COMO 方法在多模态目标检测任务中的有效性,显著超越了现有方法。

此外,我们的方法在检测大型车辆(如货车和公交车)方面表现出显著改进,表明其在这些情况下能够进行精细区分。在各种比较方法中,CFT 可以取得最佳结果,因为它不需要显式的位置关系,而其他比较方法依赖于模态之间的显式位置关系,这使得 CFT 在模态之间位置关系不明确的情况下具有优势。我们的方法仅利用受偏移影响较小的高层特征,这可以减轻偏移对检测结果的影响,同时保留低层特征的信息。最后,我们使用偏移引导的颈部融合网络来融合特征,并提高模型的实时性能。

图 8 展示了我们的方法与其他一些方法在 DroneVehicle 数据集上的检测结果。为了强调多模态目标检测的优势,我们选择显示夜间场景的可见光图像和白天场景的红外图像。这突出了在另一种模态的支持下,较弱模态的检测如何得到增强。可以看出,与其他方法相比,COMO 在复杂场景中能够获得最佳检测结果。

同时,我们比较了相同 GPU 平台下各比较方法的模型大小、计算复杂度和计算速度,分别用参数(Parameter)、浮点运算次数(Flops)和帧率(FPS)表示。结果如表 3 所示。

结果表明,我们的方法比其他方法具有更小的模型大小和更低的计算量,计算速度也更快,这表明我们的方法具有更好的实时性能,更适合实际应用。我们的方法在 DroneVehicle 数据集上以最小的计算量提供了最佳结果,并且推理速度满足显示需求。

4.4. 实验 2:LLVIP 数据集

在多个数据集上取得良好结果是探索模型优缺点的关键。因此,我们选择使用与 DroneVehicle 数据视角相似但仅包含一个类别的行人检测数据集。LLVIP 数据集是一个具有挑战性的数据集,包含在低光条件下由道路监控摄像头捕获的红外和可见光模态图像。该数据集包括总共 16,836 对 RGB 和红外图像。LLVIP 数据集具有较低的视角和更接近目标的距离,并且仅包含一个行人类别,与 DroneVehicle 相比,检测难度略低。然而,LLVIP 数据集的主要挑战是它完全由夜间场景组成,使得可见光模态的信息显著减少。此外,较低的视角导致目标之间频繁遮挡。要在该数据集上取得最佳结果,必须有效地将红外数据与可见光数据融合,同时捕捉目标的关键特征。这即使在发生遮挡的情况下也能实现准确检测。

我们选择了 8 种比较方法,结果如表 4 所示。由于 LLVIP 数据集仅包含一个类别,我们引入了 mAP75 指标以更全面地评估实验结果,提供额外的评估见解。表 4 表明,我们的方法在 YOLOv5 基线上使用 mAP50 指标在 LLVIP 数据集上取得了最佳性能,证实了其在多模态行人检测任务中的有效性。具体而言,我们的方法在 mAP50 指标上达到了 97.2%,优于其他方法。然而,在 mAP75 和 mAP 指标上,我们的方法未能超越 GMDETR 方法,这主要是因为它依赖于 RT-DETR(Zhao 等,2024)基线,该基线在检测较大目标时表现出更高的准确性。未来,我们计划结合更先进的基线模型以实现更全面的改进。此外,使用 YOLOv8 基线获得的结果也非常接近最佳性能,这表明我们的方法具有强大的泛化能力,并在不同数据集上表现良好。

LLVIP 数据集的定性结果如图 9 所示。这些结果表明,我们的方法在低光条件下有效检测行人,即使个体被部分遮挡。这突出了所提方法在多模态目标检测任务中的有效性,特别是在具有挑战性的场景中。

4.5. 实验 3:VEDAI 数据集

为了进一步评估我们提出的方法并探索其在遥感图像上的有效性,我们选择了小规模的 VEDAI数据集,这是一个广泛使用的多模态遥感目标检测基准。VEDAI 数据集包括由飞机捕获的 RGB 和红外图像,并包含 8 种车辆类别,超过 1,200 张图像中标注了 3,700 多个目标。该数据集提供两种分辨率的图像:1024×1024 和 512×512。由于该数据集是一个对齐良好的航空遥感数据集,偏移问题不是问题。因此,我们将特征交互模块应用于三个特征提取尺度,以更有效地融合数据并获得更丰富的融合信息。换句话说,我们利用 Mamba 交互模块在三个尺度 {Sir3, Sir4, Sir5, Srgb3, Srgb4, Srgb5} 上对所有输入数据执行交互操作,以获得三个尺度上的融合结果 {Fir3, Frgb3, Fir4, Frgb4, Fir5, Frgb5}。

对于该数据集,我们仅选择 512×512 分辨率的图像进行训练和测试。这一选择确保模型适用于各种数据集,而不仅仅是 VEDAI 数据集。考虑到其他方法使用了 1024×1024 分辨率,我们保持了这一设置,以确保可以获得最高精度。为了加快模型性能的验证,我们未采用常用的十折交叉验证方法,而是固定一组数据进行验证,并使用其余组进行训练,从而减少实验所需的时间,同时仍获得可靠的结果。由于所有比较算法均基于相同的 YOLOv5 基线模型,我们仅比较从该基线得出的实验结果,以确保更公平和客观的比较。此外,我们确保所有比较方法的实验结果均使用相同的数据设置获得。比较结果如表 5 所示,表明我们的方法在 VEDAI 数据集上也取得了最佳结果,证明了我们的方法在遥感视角下的多模态检测任务中也能取得良好效果。

VEDAI 数据集的主要挑战是目标非常小。因此,在选择检测头时,只有负责检测小目标的检测头才能取得良好结果。SuperYOLO 和 GHOST 都采用了这种方法。然而,这种策略导致颈部多尺度融合网络的缺失,从而削弱了多尺度特征融合的效果。VEDAI 数据集的结果如图 10 所示。这些结果表明,我们的方法在遥感图像中有效检测小型车辆,即使目标很小且分辨率较低。这突出了所提方法在多模态目标检测任务中的有效性,特别是在具有挑战性的遥感场景中。

4.6. 消融实验

我们对所提出的模块进行了广泛的消融实验,以探索每个模块的有效性以及模块之间的相互关系。除非另有说明,我们主要使用 YOLOv5s 模型作为基线,并使用 DroneVehicle 数据集作为实验数据。

如表 6 所示,我们进行了大量消融实验以验证整体模型中各个组件的有效性。这些组件包括 Mamba 交互模块(MIB)、全局与局部扫描方法(GLS)和偏移引导融合(OGF)。有趣的是,基线模型采用双分支架构,由两个 CSPDarknet53 网络组成,用于特征提取。它在将结果传递到 YOLOv5 的原始颈部网络进行检测之前,使用简单的卷积模块进行特征融合。选择该基线设计是因为 YOLOv5 模型本身不足以完成多模态目标检测任务。我们的网络可以看作是该基线的改进,在多模态目标检测任务中提供了更好的性能。

由于局部扫描方法是跨模态 Mamba 模块的改进方法,因此该模块不能完全独立进行消融实验。然而,可以在存在跨模态 Mamba 模块的消融实验中探索其效果。消融实验表明,与单模态目标检测任务相比,使用简单融合机制(如表 6(a))对准确性的提升有限。然而,添加 MIB 模块(b)显著提高了检测性能,mAP50 提高了 2.4%,mAP 提高了 0.3%,证明了捕捉不同模态之间交互的重要性。局部扫描方法(d)进一步增强了多模态数据的融合,mAP50 提高了 0.5%,mAP 提高了 1.6%,从而通过局部特征提高了检测性能。相比之下,缺乏特征交互并仅依赖多尺度特征融合的方法(c)仅表现出 0.5% mAP50 的边际改进。偏移引导融合在模型(e)中进一步提高了检测性能,与模型(b)相比,mAP50 提高了 0.9%,mAP 提高了 1.8%,表明在使用 Mamba 模型构建的特征交互方法中,通过高层特征引导低层特征显著减轻了偏移的影响。最终,完整模型(f)取得了最佳性能,mAP50 达到 85.3%,mAP 达到 63.4%,突出了所提方法在多模态目标检测任务中的有效性。这也证实了每个模块的必要性以及它们合理整合的重要性。

4.7. Mamba 交互模块的比较与分析

为了找到最佳的 MIB 模块并与其他方法进行深入比较,我们设计了不同的 MIB 组成方法,并构建了一个结构相似但完全由 Transformer 模块组成的特征交互模块,以充分展示 MIB 模块的优势。具体操作包括将 MIB 中的单模态 Mamba 模块替换为自注意力模块,并将跨模态 Mamba 模块替换为交叉注意力模块,如图 11 所示。

我们还分析了两种模型的结构,以探索多模态目标检测的最佳模型。我们分析了由 Mamba 模型和 Transformer 模型组成的两种模型中处理的单模态模块数量,并将处理多模态数据的跨模态模块数量固定为 1。最终结果如图 12 所示。

结果表明,MIB 模块在多模态目标检测任务中优于 Transformer 模块。当单模态模块数量设置为 3 时,MIB 模块取得了最佳性能,mAP50 为 85.3%。相比之下,当单模态模块数量设置为 0 时,Transformer 模块取得了最佳性能,mAP50 为 83.6%。同时,所提 COMO 方法的浮点运算次数仅为 14.03G,显著低于使用 Transformer 模型方法所需的 15.31G。这表明,MIB 模块在多模态目标检测任务中比 Transformer 模块更有效,因为它能够更好地捕捉不同模态之间的交互并提高检测性能。结果还表明,MIB 模块比 Transformer 模块更高效,因为它在实现更好性能的同时需要更少的计算量。

4.8. 全局与局部扫描方法的讨论

调整局部窗口大小会显著影响模型的性能和有效性。较小的局部窗口大小使模型能够捕捉更精细的局部特征和细节,这对于检测小目标或图像中的细微变化至关重要。然而,这增加了计算负载,因为模型需要处理更多的局部窗口。相反,较大的局部窗口大小使模型能够专注于全局信息,使其更适合检测大目标或更广泛的模式。然而,这种权衡可能会导致细节的丢失,特别是在小目标或复杂背景的场景中。此外,由于我们的方法结合了局部扫描机制,局部窗口大小的设计与局部窗口大小密切相关。因此,我们对局部扫描方法中的局部窗口大小和局部窗口数量进行了分析,以探索局部扫描方法的最佳参数。我们通过考虑 640×640 图像最终被划分为的局部窗口数量来分析局部窗口大小的影响。局部窗口越大,局部窗口数量越少。这两个指标具体表示为局部窗口数量(patch num.)和局部窗口数量(local num.)。结果如表 7 所示。

我们将所有局部窗口设置为小于整体窗口大小的三分之一,以确保局部信息更具相关性。结果表明,当局部窗口数量设置为 8×8 且局部窗口大小设置为 2×2 时,COMO 方法取得了最佳性能,mAP50 为 85.3%。这表明局部扫描方法可以在相邻局部窗口之间建立更强的相关性。在遥感图像中,局部目标之间的关系通常更强。例如,在扫描拥挤的市区时,附近的目标具有共同的模式和特征,这使得它们的连接对于准确检测至关重要。然而,全局序列扫描机制可能会忽略局部细节。这正是局部扫描机制对全局方法的补充。通过专注于局部细节,局部扫描方法弥合了差距,使模型能够捕捉广泛的模式和附近目标之间的复杂连接。这种组合使模型能够构建更全面的关系网络,从而提高其在遥感图像中检测特征的准确性和有效性。

 4.9. 应用场景的讨论

所提出的 COMO 方法旨在解决各种应用场景中多模态目标检测任务的挑战。它可以利用可见光图像中的丰富颜色和纹理信息,同时利用红外图像中的辐射信息。通过合理融合两种模态以创建互补信息集,即使在雾天、夜间和部分遮挡等条件下,它也能实现更高的目标检测精度。这一优势在实际应用中具有重要的实用价值。此外,COMO 解决了目标位置偏移的问题,这是现有方法难以克服的挑战。它通过选择包含更多抽象属性且受偏移影响较小的高层特征进行融合,减轻了由于拍摄角度和时间差异引起的目标偏移。此外,它采用先进的跨模态 Mamba 方法进行模态间信息交互,从而实现更全面的信息构建。通过使用高层特征引导受偏移影响的低层特征融合,COMO 最大限度地增加了信息量,并确保了对小目标的检测能力。通过结合这些方法,COMO 在多模态检测中实现了比其他方法更高的精度。

我们从三个角度全面探索了 COMO 方法的适用性:航空、无人机和道路监控,涵盖了遥感领域的大多数场景。在众多实验中,COMO 始终取得了优异的检测结果。此外,所需的计算资源和处理时间相对较低,使其非常适合实际应用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小小老大MUTA️

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值