DAMSDet:具有竞争查询选择和自适应特征融合的动态自适应多光谱检测Transformer

今天看到一篇关于红外-可见光场景下目标检测的研究论文DAMSDet,能够动态聚焦于主导模态目标并自适应地融合互补信息。作者设计了一种模态竞争查询选择策略,用于多模态初始化查询,动态聚焦于每个目标的主导模态,并为后续融合过程提供有用的先验信息。提出了多光谱可变形交叉注意力模块,该模块能够同时自适应地挖掘不同语义层级的细粒度部分互补信息,并适应模态错位情况。这里趁着晚上的时间整体阅读了一下,记录自己的阅读记录,感兴趣的话可以参考一下,如果想要直接阅读原文,可以来这里,如下所示:

摘要

红外-可见光目标检测旨在通过融合红外和可见光图像的互补信息来实现鲁棒的甚至全天候的目标检测。然而,高度动态变化的互补特性和普遍存在的模态错位使得互补信息的融合变得困难。本文提出了一种动态自适应多光谱检测Transformer(DAMSDet),以同时解决这两个挑战。具体来说,我们提出了一种模态竞争查询选择策略,为每个对象动态选择基本显著的模态特征表示。为了有效挖掘互补信息并适应错位情况,我们提出了一种多光谱可变形交叉注意力模块,为每个对象自适应地采样和聚合红外和可见光图像的多语义层次特征。此外,我们进一步采用了DETR的级联结构,以更好地挖掘互补信息。在四个不同场景的公开数据集上的实验表明,与其它最先进的方法相比,我们的方法取得了显著的改进。代码将在这里,如下所示:

关键词:目标检测,多光谱检测,红外,DETR,查询选择,自适应特征融合

1 引言

目标检测是计算机视觉中的一个基本任务,大多数研究工作基于具有详细目标信息的可见光图像,例如纹理和颜色信息。得益于深度学习的发展,目标检测技术取得了巨大的进步。然而,它仍然受到恶劣成像条件的挑战,例如低光照、烟雾、雾等,这些条件会使目标变得模糊,进一步明显降低目标检测的性能。因此,红外图像被引入到目标检测任务中。与可见光成像不同,红外成像捕捉物体的红外辐射,不受光照、烟雾和雾遮挡条件的影响。因此,即使在低光照、浓烟或雾中,红外成像仍能很好地捕捉物体,尽管会丢失详细的纹理和颜色信息。红外和可见光成像的这些互补特性不仅可以提高目标检测的性能,还被认为有望实现全天候目标检测。因此,红外-可见光目标检测近年来引起了广泛关注。

图1:红外-可见光目标检测中的两个典型挑战示例。(a) 三个行人代表不同的复杂互补特性。在此示例中,可见光图像中的对象提供无用的干扰信息(红色),部分互补信息(蓝色)和完全互补信息(绿色)。(b) 错位问题的一个示例,其中红外和可见光对象的地面真实值出现明显错位。这种错位在红外-可见光图像中很常见。我们提出了一种包含多光谱可变形交叉注意力模块的多光谱Transformer解码器,以同时解决这两个典型挑战。

然而,现有方法往往忽视了在复杂场景中融合过程中遇到的模态干扰。对于某一模态中目标信号较差或缺失的情况,直接融合两种模态的信息会引入无用的干扰信息,可能导致特征混淆,从而降低目标检测性能。例如,如图1(a)所示,烟雾中的行人完全消失,直观上,最好的方法是抑制或丢弃该行人的可见光信息。一些工作学习全局融合权重以适应特定场景,代表性的方法是采用光照感知网络获取光照分数作为全局融合权重。其他工作通过边界框级别的语义分割或感兴趣区域(ROI)预测来学习局部区域融合权重。

实际上,由于完全不同的成像原理,红外-可见光图像中的互补特性在特定场景和对象中表现出高度变化,如图1所示。特别是,从图1(a)中,我们可以观察到三个行人具有明显的不同互补特性。绿色边界框的行人具有良好的互补信息,而红色边界框的行人只有红外信息可用,如前所述。蓝色边界框的行人具有部分信息可用,这在实际应用中普遍存在。这种情况会使当前方法无法有效融合特征,即使是上述基于区域的权重融合方法,分割或预测的区域通常也大于对象。因此,更细粒度的双模态信息融合仍然是一个挑战。

红外-可见光目标检测的另一个重要挑战是模态错位问题。大多数特征融合方法假设两种模态是良好对齐的。然而,精确配准是困难的,因为红外-可见光图像通常表现出显著的视觉差异,并且并不总是捕获在完全相同的时间戳。因此,即使是通过手动配准,两种模态中相同对象的成像通常也是错位的,如图1(b)所示。这会破坏当前方法融合特征表示的一致性,影响最终检测性能。AR-CNN明确学习了两种模态中对象的偏移量,以实现对象特征的对齐。然而,这种方法在训练期间需要额外的双模态边界框标注,费时费力。

本文提出了一种新颖的自适应红外-可见光目标检测方法,包含一个多光谱Transformer解码器和多光谱可变形交叉注意力模块,以同时解决上述两个挑战。具体来说,我们采用了一种有效的策略,在两种模态的不同语义层次特征图上进行自适应稀疏特征采样和权重聚合。这种策略可以有效融合细粒度的互补信息,即使在两种模态错位的情况下。由于细粒度信息融合和模态对齐的两个挑战在单个模块中同时处理,我们的方法比现有方法更高效,通常分别处理它们。此外,与现有方法采用的一步融合策略不同,我们的方法中每个特定对象的信息融合发生在不同语义层次上,使得互补信息得到充分挖掘和利用。实际上,我们观察到两种模态的互补信息也随语义层次动态变化,如第3.3节所述。这与我们之前讨论的场景和对象观察类似。因此,我们的自适应多层次融合更为合理。

为了在早期阶段提供可靠的输入,我们设计了一种竞争查询选择策略,为每个对象选择主导模态特征作为初始位置和内容查询,为多光谱Transformer解码器构建基本显著特征表示,为后续处理提供有用的先验信息。为了逐步进一步挖掘更可靠和全面的互补信息,本文采用了DETR的级联层结构。总的来说,我们的方法类似于人类观察模式,动态关注每个模态中的对象,并逐步聚合两种模态的关键信息。

本文的贡献可以总结如下:

  • 我们提出了一种新颖的红外-可见光目标检测方法,名为DAMSDet,可以动态关注主导模态对象并自适应融合互补信息。

  • 我们提出了一种多模态初始查询的竞争选择策略,以动态关注每个对象的主导模态,并为后续融合过程提供有用的先验信息。

  • 我们提出了一种多光谱可变形交叉注意力模块,可以同时在不同语义层次上自适应挖掘细粒度的部分互补信息,并适应模态错位情况。

  • 在四个不同场景的公开数据集上的实验表明,与其它最先进的方法相比,我们的方法取得了显著的改进。

2 相关工作

红外-可见光目标检测。 以往的红外-可见光目标检测研究主要基于单模态目标检测框架,通常分为单阶段目标检测器,如Faster RCNN,和两阶段目标检测器,如YOLO。

为了融合红外和可见光图像的互补信息,Konig等人引入了一个全卷积融合RPN网络,通过拼接融合红外和可见光图像特征,并得出中途融合可以获得更好结果的结论。在此基础上,一些研究设计了基于CNN的注意力模块,以更好地挖掘红外和可见光图像的潜在互补性。此外,其他工作引入了基于Transformer的融合模块,以捕捉红外和可见光图像之间更全局的互补关系。

除了上述直接融合图像特征的方法外,一些工作采用光照信息作为全局权重来融合红外和可见光图像特征,或后融合多分支检测结果以减少干扰信息的影响。考虑到不同区域的互补特性可能不同,一些研究引入了边界框级别的语义分割或感兴趣区域(ROI)预测来指导不同区域的融合。其他工作还利用区域的置信度或不确定性分数来后融合多分支的预测。

为了解决模态错位挑战,Zhang等人开发了AR-CNN网络,通过引入额外的双模态边界框标注来明确对齐两种模态的特征。Kim等人也采用多标签学习方法来适应错位场景中的目标检测。

上述方法显著提高了红外-可见光目标检测的性能。然而,这些方法执行整体图像特征融合或一步重加权区域特征融合,使得在复杂场景中难以挖掘完整的互补信息。相比之下,我们提出的方法将错位问题与互补特征融合联系起来,在多个语义层次上逐步自适应挖掘对象特定的细粒度互补信息。

端到端目标检测器。 近年来,Carion等人首次引入了基于Transformer的端到端目标检测器,称为DETR。它将目标检测视为一个集合预测问题,在训练期间使用二元匹配直接预测一对一目标集合。这大大简化了目标检测流程,消除了手动锚框设计或NMS后处理的必要。尽管DETR具有这些优势,但它存在训练收敛缓慢的问题,许多DETR变体被提出以解决这一问题。Deformable DETR通过预测2D锚点并设计可变形交叉注意力模块在参考点周围稀疏采样特征,加速了训练收敛。Conditional DETR解耦了内容和位置操作,提出条件交叉注意力以加速训练收敛。Efficient DETR通过结合密集检测和稀疏集合检测提出了更高效的流程。DAB-DETR引入了4D参考点,逐层优化预测框。DN-DETR通过在训练阶段引入查询去噪加速了训练过程和标签匹配效果。DINO整合了上述工作,构建了一个强大的DETR检测框架。为了提高检测效率,RT-DETR通过设计高效混合编码器和采用IoU感知查询选择策略构建了一个实时端到端目标检测器。

最近,一项基于DETR的多光谱行人检测研究进行了,设计了三个预测分支和一个实例感知模态平衡损失来对齐每个模态的贡献。相比之下,我们的方法只有一个预测分支,并通过动态模态竞争查询选择策略指导每个特定对象的特征融合。这种基于样本变化的动态指导策略对于复杂多变场景中的红外-可见光目标检测可能更为有效。

3 方法

概述

我们的DAMSDet概述如图2所示。我们的方法包含四个主要组件:两个模态特定的CNN主干网络,两个模态特定的Efficient编码器,模态竞争查询选择和多光谱Transformer解码器。给定一对红外和可见光图像,我们首先使用两个模态特定的CNN主干网络和两个模态特定的Efficient编码器分别提取和编码它们的特征。随后,编码后的特征被展平、拼接并输入到模态竞争查询选择模块。该模块选择显著的模态特征作为初始对象查询。接下来,这些模态特定的对象查询进入多光谱Transformer解码器,通过级联解码器层与红外和可见光特征图的多语义层次进行细化。最后,这些细化的对象查询通过检测头映射,得到所有对象的边界框和分类分数。

图2:DAMSDet概述。我们的DAMSDet包含四个主要组件:两个模态特定的CNN主干网络用于提取特征,两个模态特定的Efficient编码器用于编码特征,一个模态竞争查询选择模块用于选择初始对象查询,以及一个多光谱Transformer解码器用于挖掘互补信息和细化查询。

图3:模态竞争查询选择结果的可视化。红点表示在相应模态图像中选定的高分查询,蓝点表示低分查询。红框表示由高分查询表示的对象。

Efficient编码器结合了Transformer和CNN,显著降低了计算复杂度,遵循RT-DETR的结构。接下来,我们将详细介绍提出的模态竞争查询选择策略和包含多光谱可变形交叉注意力模块的多光谱Transformer解码器。

模态竞争查询选择

DETR中的对象查询是一组可学习的嵌入,包含对象的内容和位置信息。这些查询作为对象特征表示,在解码器中与图像特征序列交互,并通过预测头映射生成边界框和分类分数。除了将对象查询设置为可学习嵌入外,还有一些方法使用Top-K分数特征作为初始对象查询。可学习的对象查询难以优化,因为它们没有明确的物理意义。在红外和可见光图像中,两种模态特征之间存在差距,进一步增加了可学习对象查询的优化难度。因此,从编码特征图中选择对象查询更适合红外-可见光目标检测任务中互补特性的动态变化。

具体来说,我们将红外和可见光模态的编码特征序列拼接并输入到线性投影层,得到特征点分数。从这种组合特征表示中,我们选择Top-K得分特征作为初始对象查询。这些Top-K特征分别来自红外或可见光特征,每个特征代表各自模态的特定对象实例。这种方法可以定义如下:

如前所述,红外或可见光图像可能包含无用的干扰信息,这可能会混淆网络。我们竞争性地选择模态特定特征,为每个对象构建显著特征表示。这种方法有助于防止在早期阶段引入另一种模态的干扰,并为后续解码器中的查询细化提供有用的先验信息,强调查询的对象表示应优先考虑其来源的模态。此外,我们使用IoU感知分类损失的优化策略,进一步提高所选特征的质量。

有效性分析。 为了观察我们的模态竞争查询选择策略在网络中的性能,我们在配对图像上可视化了所选模态特定初始查询的位置和分数。具体来说,我们将这些选定的特征映射以获得参考点的坐标,这些坐标进一步投影到红外或可见光图像上。如图3所示,可视化结果显示不同对象实例由不同主导模态特征显著表示。这一选择结果与我们的直觉一致,表明该方法在不同条件下动态选择每个对象的主导检测模态。更详细的定量结果和分析见第4.4节。

冗余查询。 我们还观察到红外和可见光图像中存在指向同一对象的冗余查询。然而,由于DETR的一对一匹配优化模式和解码器中应用于所有模态特定查询的自注意力机制,网络有效地消除了这种冗余信息。为了进一步解决这一潜在问题,我们在训练期间引入噪声查询学习策略,以促进学习每个对象的最佳模态匹配。

图4:多光谱Transformer解码器的结构(去噪训练组在图中省略)和多光谱可变形交叉注意力模块。

多光谱Transformer解码器

多光谱Transformer解码器的详细结构如图4所示。在每一层中,模态特定的对象查询首先经过多头自注意力以获得上下文信息并减少冗余。随后,我们的多光谱可变形交叉注意力模块通过多语义红外和可见光特征细化这些模态特定的查询。此外,我们使用4D锚框来约束多光谱可变形交叉注意力模块中的采样范围,并通过级联解码器层迭代细化查询和锚框。具体来说,在具有D层的多光谱解码器中,我们将第d层的第q个模态特定查询​映射以获得细化的4D参考点​。该过程可以描述如下:

 图5:不同解码器层中不同语义层次上的特征采样可视化。不同颜色的点表示在不同语义层次上的采样结果,其中蓝色、绿色和红色分别表示在低级、中级和高级语义特征图上的采样点。颜色鲜艳且较大的点表示相对较高的注意力权重。(a) 可见光图像中的绿框表示对齐的边界框,显示每种模态中的采样点集中在正确的实例位置。(b) 被背景和烟雾遮挡的对象倾向于在后续解码器层中主要关注红外模态。(c) 在良好光照条件下的对象和在红外模态中较难区分的对象倾向于在后续解码器层中主要关注可见光模态。

多光谱可变形交叉注意力模块。 在Deformable DETR中,关键特征通过在特征图上稀疏采样进行聚合,我们将其扩展为多模态形式,以实现自适应红外和可见光特征融合。多光谱可变形交叉注意力模块的详细架构如图4所示。具体来说,我们将4D参考点通过MLP层映射到位置嵌入。在将模态特定查询特征与位置嵌入结合后,使用两个线性层分别预测两种模态中多语义特征图上的采样偏移量和聚合权重。最后,这些采样的多语义红外和可见光特征通过聚合权重进行聚合。由于该方法能够在红外和可见光模态中独立预测采样位置偏移量,网络仍能关注错位图像对中错位对象的特征。

有效性分析。 为了观察这种特征融合方法的有效性,我们在不同解码器层中可视化了在两种模态中不同语义层次上采样的位置和权重,如图5所示。结果显示,随着解码器层加深,我们的方法倾向于自适应地关注红外模态中的低语义特征和可见模态中的额外高语义特征。这一结果是合理的,因为红外模态携带较少信息,可以提供可靠的低语义信息,如基本轮廓和形状,而可见模态具有更多信息,可以额外提供更抽象的高语义信息,如更可靠的对象类别上下文关系。此外,我们观察到这些点可以适应错位场景,并自适应地关注对象的关键信息,如边缘信息,这对于定义对象边界很重要。不同解码器层中采样位置和权重分布的差异也验证了级联结构在可靠互补信息挖掘中的有效性。更多细节见第4.4节。

损失函数

我们模型的训练损失遵循DETR类检测器,定义如下:

4 实验

数据集和指标

我们在四个数据集上进行实验,涵盖不同场景和尺度的对象。我们使用标准COCO AP指标作为评估指标。四个数据集是M3FD、FLIR、LLVIP和VEDAI。

表1:M3FD数据集上的比较。TarDALCT表示通过[17]获得的红外-可见光融合图像。†包括图像融合和目标检测推理时间。

                                                 表2:FLIR对齐数据集上的比较。

M3FD。 M3FD数据集包含4200对红外-可见光图像,分辨率为1024×768。它涵盖多种场景和六个对象类别,图像对略有错位。由于数据集未提供公开分割,我们按不同场景将数据集分为3368对训练集和831对验证集。这意味着训练集和验证集之间的场景相似度较低。

FLIR。 我们使用对齐版本,分辨率为640×512,包含4129对训练图像和1013对测试图像,有三个对象类别。该数据集包含白天和夜间场景,图像对明显错位。

LLVIP。 该数据集用于低光照监控场景中的行人检测。它包含12025对训练图像和3463对测试图像,分辨率为1280×1024,图像对注册良好。大多数场景处于暗光条件,只有一个行人类别。

VEDAI。 该数据集是用于车辆检测的多光谱航空影像数据集,包含1200对图像,分辨率为1024×1024,图像对严格注册。它包含九个对象类别,大多数对象较小,对DETR类检测器提出了巨大挑战。我们将其边界框转换为水平框,遵循。

实现细节

我们采用ResNet50作为红外和可见光分支的主干网络,特征图语义层次为L=3。Efficient编码器包含一层,MS-Decoder包含六层。我们将注意力头数、采样点和选定查询数分别设置为H=8、K=4和N=300。

我们使用在COCO数据集上预训练的权重,并在训练期间仅使用基本数据增强,如随机调整大小、裁剪和翻转。M3FD、FLIR和LLVIP的学习率设置为0.0001,VEDAI的学习率设置为0.00025。为了与SOTA方法公平比较,我们将M3FD和FLIR数据集的输入图像大小设置为640×640进行训练和测试,LLVIP和VEDAI数据集设置为1024×1024。我们在FLIR和LLVIP数据集上训练20个epoch,在M3FD和VEDAI数据集上训练50个epoch。网络在Nvidia RTX3090 GPU上进行训练。

与SOTA的比较

M3FD上的比较: 我们分割的M3FD数据集非常具有挑战性,场景不同,所有SOTA方法的mAP值都较低,如表1所示。然而,我们的方法表现更好,明显优于这些SOTA方法。具体来说,我们的方法在mAP50、mAP75和mAP上分别比CFT高出12%、11.4%和10.4%。在mAP50、mAP75和mAP上分别比ICAFusion高出12.4%、11.5%和11%。这一显著的性能提升表明我们的方法能更好地适应红外-可见光目标检测中的复杂多变场景。

                                                         表3:LLVIP数据集上的比较。

                                              表4:VEDAI数据集上的比较。

FLIR上的比较: 如表2所示,我们的方法优于单模态方法,并在mAP50和整体mAP上分别比最佳特征融合方法高出6.1%和6.5%,表明我们的方法能在不同光照条件下有效挖掘互补信息。

LLVIP上的比较: 如表3所示,数据集在mAP50上的性能几乎饱和,但我们的方法在mAP75(MS-DETR)上仍高出2.8%,在mAP(LRAF-Net)上高出3.3%,表明我们的方法能挖掘更全面和细粒度的互补信息。

VEDAI上的比较: 如表4所示,我们的方法仍能很好地处理小对象,并优于大多数SOTA方法。特别是在mAP50上,我们的方法比最佳方法(LRAF-Net)高出5.6%。在mAP上,我们的方法未超过LRAF-Net,后者是基于CNN的检测器。原因可能是与长距离信息提取相比,小对象检测更依赖局部特征提取,CNN在这方面可能比Transformer更具优势。另一方面,这些小对象的边界框较小,对位移敏感,即使几个像素的位移也会导致IOU和后续mAP的显著变化。因此,边界框预测的高精度对小对象检测至关重要。相对而言,CNN方法可以实现更高的边界框精度,从而获得更高的mAP。尽管如此,mAP50的提升表明我们的方法在小对象场景中具有潜力。

检测可视化: 为了质量分析,我们在M3FD(a, b)、FLIR(c, d)和VEDAI(e, f)数据集上提供了一些代表性的检测结果。如图6所示,我们的方法可以准确地定位对象,并在不同场景中实现更高的检测置信度。这些结果表明,我们的DAMSDet可以自适应地关注主导模态并有效挖掘细粒度的多层次语义互补信息。

图6:M3FD(a, b)、FLIR(c, d)和VEDAI(e, f)上的代表性结果。倒置的红三角形表示未匹配地面真实值的检测结果。在可视化这些结果时,置信度阈值设置为0.5。

M3FD上的消融研究

为了验证我们方法的关键模块和策略的有效性,我们在高质量、多场景的M3FD数据集上进行了消融实验。

模态竞争查询选择(MCQS)的效果: 我们将标准查询选择应用于添加的编码特征,以展示模态竞争查询选择的有效性。如表5的第5行和第6行所示,我们的模态竞争查询选择策略由于避免了早期引入干扰,分别带来了1.1%的mAP50和0.7%的mAP提升。

多光谱可变形交叉注意力模块(MDCA)的效果: 我们将标准可变形交叉注意力应用于通过添加两个编码器输出获得融合特征的解码器。如表5的第5行和第7行所示,我们的方法分别带来了1.5%的mAP50和0.9%的mAP提升。这一提升归因于我们的方法在适应模态错位场景的同时,以更细粒度的方式为每个对象进行自适应特征聚合的能力。当然,当同时使用模态竞争查询选择和多光谱可变形交叉注意力模块时,我们在所有AP指标上取得了最佳结果,如表5的第9行所示。

表5:M3FD数据集上的消融研究。MCQS、MDCA和CQS分别表示模态竞争查询选择、多光谱可变形交叉注意力和内容查询选择。

内容查询选择(CQS)的效果: 我们分析了红外-可见光目标检测中不同内容查询策略的性能。为了比较,我们将单分支网络作为单模态检测方法。在表5的第8行和第9行中,不使用CQS意味着将内容查询设置为可学习查询,而位置查询仍通过模态竞争查询选择获得(类似于DINO中的混合查询选择)。我们可以看到,使用CQS会带来更好的结果,因为它为多光谱解码器中的后续多光谱交叉注意力提供了更强的先验信息。然而,如表5的前4行所示,内容查询的选择或可学习性对单模态目标检测的影响有限,因为单模态的特征表示相对一致。

限制

我们的方法在解决大多数情况下的常见错位问题上有效。然而,在极端错位情况下,当对象超出4D参考点的范围时,我们的方法可能无法很好地处理,因为模态的对象特征将丢失。

5 结论

本文提出DAMSDet,以同时解决红外-可见光目标检测中的互补信息融合和模态错位问题。通过模态竞争查询选择,DAMSDet可以动态选择特定对象的显著模态特征表示。在多光谱可变形交叉注意力模块中,我们将特征融合与模态错位联系起来,在多语义层次上挖掘可靠的互补信息。在四个不同场景的公开数据集上的实验表明,与其它最先进的方法相比,我们的方法取得了显著的改进。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Together_CZ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值