ICAFusion: Iterative Cross-Attention Guided Feature Fusion for Multispectral Object Detection

CV-Climber

已于 2024-10-07 19:52:10 修改

阅读量525

点赞数 4

分类专栏： Text-to-image Generate 文章标签：目标检测人工智能计算机视觉

于 2024-10-07 19:44:17 首次发布

本文链接：https://blog.csdn.net/qq_41833478/article/details/142696503

版权

Text-to-image Generate 专栏收录该内容

21 篇文章 1 订阅

订阅专栏

1 研究背景

1.1 研究目的

1.以前的研究已经证明了使用卷积神经网络进行特征融合的有效性，但由于局部距离特征交互的固有缺陷导致性能下降，这些方法对图像错位很敏感。

为了解决这个问题，作者提出了一种新的双交叉注意transformer特征融合框架来建模全局特征交互，同时捕获跨模态的互补信息。该框架通过查询引导的交叉注意力机制增强了对象特征的可辨别性，从而提高了性能。

2. 但是堆叠多个transformer块进行特征增强会产生大量的参数和较高的空间复杂度。

为了解决这个问题，受人类审查知识的过程的启发，提出了一种迭代交互机制，在块式多模态transformer之间共享参数，降低了模型的复杂性和计算成本。

1.2 热普范围图像介绍

热谱范围图像提供了一种感知自然场景的特殊方法，被认为可以补充计算机视觉中的可见光谱图像。

多光谱图像特征表示和融合是一个具有挑战性的问题，服务于各种下游视觉任务，如目标检测、语义分割和目标跟踪。这些方法仍然容易受到环境因素的影响，如恶劣的天气条件和光照变化。

为了提高目标检测器在全天候条件下的鲁棒性和准确性，基于RGB和热图像的多光谱目标检测已经成为一个可行的解决方案，在最近的学术研究中越来越受欢迎。

1.3 作者做出的贡献

提出了一种新的多光谱目标检测双交叉注意特征融合方法，该方法同时聚合来自RGB和热图像的互补信息。
设计了一种迭代学习策略，用于高效的多光谱特征融合，在不增加可学习参数的情况下进一步提高了模型的性能。
提出的特征融合方法既具有通用性又有效，可以插入到不同的主干中，并配备了不同的检测框架。
提出的CFE/ICFE模块可以用不同的输入图像模态发挥作用，当模态缺失或池质量有时，这提供了可行的解决方案。
该方法可以在KAIST、FLIR和VEDAI数据集上取得最先进的结果，同时也能获得非常快的推理速度。

2 模块框架

2.1 整体结构

如图 1 所示，所提出的方法是一个双分支骨干网络，专为从 RGB-热图像对中提取特征而量身定制。

图 1 多光谱目标检测框架概述

图1中：

上分支和下分支为RGB图像和热图像的特征提取模块
C1∼C5表示不同尺度的特征图尺度
DMFF模块是作者提出的特征融合方法
Neck模块是多尺度特征聚合网络
Head模块输出最终的检测结果。

作者的方法主要包括三个阶段：

单模态特征提取
双模态特征融合
检测颈部和头部

2.1.1 第一阶段

单模态特征提取首先独立用于RGB和热图像，如式1所示：

其中：

$F_{R}^{i},F_{T}^{i}\in \mathbb{R}^{W*H*C}$ 分别表示 RGB 和热分支的第 i 层 (i=3, 4, 5) 的特征图
H、W 和 C 表示特征图的高度、宽度和通道数
$I_{R},I_{T}\in \mathbb{R}^{W*H*C}$ 表示输入 RGB 和热图像
$\Psi _{backbone}$ 分别表示 RGB 和热分支的参数为 $\theta _{R}$ 和 $\theta _{T}$ 的特征提取函数

在通用目标检测中，VGG16、ResNet和CSPDarkNet通常用作函数 $\Psi _{backbone}$ 。在特征提取阶段，多尺度特征通常用于捕获不同大小的对象。

2.1.2 第二阶段

给定 $F_{R}^{i},F_{T}^{i}$ 的特征图，需要跨模态特征融合来聚合多光谱目标检测中不同分支的特征，这可以在方程式2中定义：

其中:

$F_{R+T}^{i}\in \mathbb{R}^{W*H*C}$ 表示第 i 层融合特征
$\Phi _{fusion}\left ( \cdot \right )$ 表示参数为 $\theta _{f}$ 的特征融合函数

鉴于以往的研究探索了不同的融合架构，并验证了半向融合优于其他融合方法，作者使用半向融合作为默认设置，融合卷积层C3 ~ C5的多模态特征，如图1所示。

一般情况下，加法运算或NIN融合常被用作特征融合函数 $\Phi _{fusion}\left ( \cdot \right )$ 。在本文中，提出了一种双交叉注意力特征融合transformer来模拟 $\Phi _{fusion}\left ( \cdot \right )$ 。 $\Phi _{fusion}\left ( \cdot \right )= conv_{1*1}\left ( \left [ F_{R},F_{T} \right ] \right )$

其中 conv1×1 是一个 1×1 卷积，[·] 表示连接操作。

2.1.3 第三阶段

将 $\left \{ F_{R+T}^{i}\right \}_{i=1}^{L}$ 的特征映射输入到检测器颈部进行多尺度特征融合，然后传递到检测器头部进行后续的分类和回归，如式3所示。

其中:

$\phi _{neck}$ 和 $\phi _{head}$ 表示多尺度特征聚合和检测头函数
FPN 和 PANet通常用作函数 $\phi _{neck}$ 以增强特征的语义表达和定位能力
$\phi _{head}$ 充当参数为 $\theta _{h}$ 的分类和边界框回归的作用，例如 YOLO 和 FCOS 的检测头

为了公平比较，作者在论文中采用了这些检测颈部和头部的默认设置。

2.2 双模态特征融合（DMFF）

图 2 说明了双模态特征融合 (DMFF) 模块的结构，该模块主要包含三个组件：

空间特征收缩 (SFS) 模块
迭代跨模态特征增强 (ICFE) 模块
具有 NIN 融合的双峰特征融合模块

图2 提出的DMFF模块示意图

图2中：

SFS模块压缩后续CFE模块的特征图大小
ICFE模块通过双CFE模块细化跨模态特征
双峰特征融合模块从ICFE模块的输出进行局部特征融合模块
下面一行行说明了用于增强热模态的 CFE 模块的详细信息

2.2.1 跨模态特征增强（CFE）

与之前捕获不同模态的局部特征的研究不同，所提出的 CFE 模块使单模态能够在全局角度从辅助模态中学习更多的互补信息。所提出的 CFE 模块不仅检索 RGB 和热模态之间的互补关系，而且还克服了对跨模态特征远程依赖关系建模的不足。

给定输入特征图 $F_{R}$ 和 $F_{T}\in\mathbb{R} ^{H*W*C}$ （向量 $F_{R}$ 和 $F_{T}$ 表示来自不同分支的第 i 层的特征图，类似于方程式1中的特征图。为简单起见，作者删除了上标 i）

首先将每个特征图展平为一组标记并添加可学习的位置嵌入，这是一个维度为 HW ×C 的可训练参数，编码不同标记之间的空间信息。

之后，可以得到一组带有位置嵌入的token $T_{R},T_{T}\in\mathbb{R} ^{HW*C}$ 作为 CFE 模块的输入。由于RGB-热图像对通常不完全对齐，作者采用双CFE模块分别获取互补信息，增强RGB和热特征。参数在两个 CFE 模块之间共享。在图2(底部)中，为了清晰起见，只说明了热分支的CFE模块，如式4所示：

其中：

$T_{R}$ 和 $T_{T}$ 表示输入到 CFE 模块的 RGB 和热特征标记
$\hat{T_{T}}$ 表示使用 CFE 模块增强的热特征
$F_{CFE-T}\left ( \cdot \right )$ 表示作者提出的热分支的 CFE 模块

CFE模块的详细信息如下：

首先，将热模态 $T_{T}$ 的标记投影到两个独立的矩阵 $V_{T}$ ， $V_{R}\in\mathbb{R} ^{HW*C}$ 去计算一组值和键（等式 5）。然后，将 RGB 模态 $T_{R}$ 的标记投影到另一个单独的矩阵 $Q_{R}\in\mathbb{R} ^{HW*C}$ 以计算一组查询（等式 5）。

其中 $W^{V}$ ， $W^{K}$ 和 $W^{Q}\in \mathbb{R}^{C*C}$ 表示权重矩阵。

其次，相关矩阵是通过点积运算构建的，然后是一个 softmax 函数对相关性分数进行归一化，它表示 RGB 和热模态的不同特征之间的相似性。之后，通过将相关矩阵与向量 $V_{T}$ (Eq. 6) 相乘得到向量 $Z_{T}$ ，该向量通过利用模态之间的相似性来细化 RGB 特征。

此外，本文还采用了具有 8 个平行头的多头交叉注意机制，使模型能够从不同的角度共同理解 RGB 和热特征之间的相关性。

第三，通过非线性变换将向量 $Z_{T}$ 重新投影回原始空间，并通过残差连接(Eq. 7)添加到输入序列中，其中 $W^{O}\in \mathbb{R}^{C*C}$ 表示FFN层之前的输出权重矩阵。

最后，应用具有两个全连接层的前馈网络（FFN），如标准 Transformer中的前馈网络（FFN）进一步细化全局信息以提高模型的鲁棒性和准确性并输出增强的特征 $\hat{T_{T}}$ （等式 8）。

受Sliced Recursive Transformer的启发，作者在Eq. 7和Eq. 8中剩余连接的每个分支上应用可学习系数，自适应地学习来自不同分支的数据，以获得性能增益，其中α、β、γ、δ是在训练过程中初始化为1的可学习参数。

与热分支类似，其他 CFE 模块也用于增强 RGB 分支的特征，可以表示为等式9：

值得一提的是，CFT 也是一种基于transformer的方法，它直接连接每个模态的标记并使用单个transformer编码器计算模态之间的相关性。不同的是，作者使用两个改进的交叉注意力transformer来计算模态之间的相关性，只有来自辅助模态的查询，计算复杂度较低，参数更少。CFT 和作者的方法之间的详细计算复杂度比较在表1中给出。

表1 CFT和作者提出的方法的计算复杂度比较。(T是tolrn的长度，C是令牌的通道)

2.2.2 空间特征收缩（SFS）

虽然融合中使用的初始特征图使用主干进行下采样，但模型的参数和内存成本仍然可以远远超过标准处理器的运行要求。为了减少模块在特征图中信息丢失较少的后续计算成本，作者在压缩特征图的 CFE 模块之前应用了 SFS 模块。在SFS模块中，作者尝试了两种不同的卷积和池化操作方法，具体如下：

卷积运算

首先设计了一种基于卷积运算进行降维的方法，如式10所示。具体来说，通过重塑特征映射的维数，将特征的空间信息转换为通道维度，然后用1 × 1卷积运算压缩通道维度。

其中 F 表示输入特征图， $F_{conv}$ 表示 1 × 1 卷积的压缩特征图。

池化操作

平均池化和最大池化是两种传统的池化方法，通常用于在不增加参数的情况下减少特征图的空间维度。平均池化计算池化区域内所有元素的平均值，保留图像中的背景信息，而最大池化考虑池化区域的最大元素，主要保留对象的纹理特征。因此，作者采用了一种自适应聚合平均池化和最大池化的方法，灵感来自混合池化（Mixed Pooling for Convolutional Neural Networks），如式12所示。

其中：

F 表示输入特征图
S 表示特征图的比例因子
$F_{a}$ 和 $F_{m}$ 分别表示通过 AvgPooling(·) 和 MaxPooling(·) 的压缩特征图
λ 表示 0 和 1 之间的权重，这是可学习参数

与维度 H × W × C 的原始特征图相比，压缩的特征图具有维度 (H × W )/S × C，导致token的维度从 HW ×C 减少到 HW/S ×C。因此，CFE 模块中键、查询和值的维度变为 $K,Q,V\in \mathbb{R}^{HW/S*C}$ 。

总计算复杂度从 $O\left ( W^{2} H^{2}*C+8WH*C^{2}\right )$ 降到 $O\left ( W^{2} H^{2}/S^{2}*C+8WH/S*C^{2}\right )$

2.2.3 迭代跨模态特征增强（ICFE）

为了加强来自模态间和模态内特征的互补信息的记忆，进一步提高模型的性能，作者引入了一种基于 CFE 模块的迭代学习策略，称为 ICFE 模块。如图 3 (a) 所示，传统方法通常通过堆叠服务器模块来提高性能，但是这种显着扩展模型深度的策略不仅可以显着增加参数，而且会导致过度拟合。

图 3 传统方法和作者的方法之间差异的可视化

(a)传统方法串联堆叠多个块，每个块中没有共享参数

(b) 提出的 ICFE 模块迭代地细化跨模态的特征，并在每个块中共享参数。图像中的块表示提出的双 CFE 模块

但是，作者提出的迭代学习策略在具有共享参数的多次迭代中加深了网络的深度，并在不增加参数数量的情况下逐步细化跨模态的互补信息，如图 3(b) 所示。以 n 次迭代为例，可以简化如下（等式 13）：

其中：

$\left \{ \hat{T_{R}^{n}} ,\hat{T_{T}^{n}}\right \}$ 表示 n 个迭代操作后获得的输出序列
$\left \{ T_{R},T_{T} \right \}$ 表示 ICFE 模块的输入序列
$F_{ICFE}\left ( \cdot \right )$ 表示作者提出的 ICFE 模块，该模块分别为 RGB 和热分支集成了两个 CFE 模块。每个迭代操作的输出用作下一个迭代操作的输入，并在每个迭代操作之间共享参数。

此外，首先将ICFE模块的输出序列 $\hat{T_{R}^{n}}$ 和 $\hat{T_{T}^{n}}$ 转换为特征映射，然后通过双线性插值重新校准到特征映射的原始大小。

2.2.4 检测头的融合模式

图 2 显示了作者提出的 CFE 模块如何处理不同的输入模式。作者研究了四种可选的融合模式来验证CFE模块的有效性，如图4所示。

图4 (a)和(b)只输出一个模态特征，迫使CFE-R和CFE-T模块分别从热图像特征和RGB图像特征中收集互补特征。

此外，作者还探索了两种不同的双 CFE 模块工作模式，该模块使用共享和非共享参数，如图 4 (c) 和 (d) 所示。

图 4 (e) 说明了 NIN 融合方法的基线特征融合方法。

最后，所有这些融合的特征图 $\left ( F_{i},F_{i}^{'} ,i=\left \{R,T,fused \right \}\right )$ 将被送入检测头，如图 4 (f) 所示。

值得注意的是，作者的方法自然有利于双重和单一的图像模式。由于交叉注意机制，即使缺少其中一种输入模式或图像质量很差，作者的方法仍然可以产生令人满意的结果。可以支持作者的所说的详细实验研究将在第 3.3 节中讲解。

图 4 CFE 模块的不同融合模式

(a) RGB 模态的单个 CFE 模块

(b) 用于热模态的单个 CFE 模块

(d) RGB和热模态的双重 CFE 模块

(e) RGB和热模态的基线特征融合

(f) 所有这些输出特征的检测头。

3 实验评估

3.1 数据集和评估指标

3.1.1 数据集

KAIST 数据集

KAIST是一种流行的多光谱行人检测基准，它涉及不同照明的场景。分别有 8,963 和 2,252 个弱对齐图像对，分辨率为 640 × 512 用于训练和测试。KAIST 数据集上的性能评估通常符合度量对数平均未命中率。

为了更准确的注释，作者使用经过消毒的注释进行训练和测试。

FLIR数据集

FLIR是一个具有挑战性的多光谱目标检测数据集，包括白天和夜景。有 5,142 个对齐的多光谱图像对，其中 4,129 个用于训练，1,013 个用于测试。它包含三类对象，即“人”、“汽车”和“自行车”。

由于图像在原始数据集中错位，作者在实验中选择 FLIR 对齐版本进行比较。

VEDAI 数据集

VEDAI是航空图像中小目标检测的公共数据集，其中包含 1,268 个 RGB 红外图像对中超过 3,700 个带注释的目标。该数据集中有 9 个车辆类别。作者使用大小为 1024 × 1024 的图像进行训练和测试，并将注释转换为具有水平框格式作为参考，因为原始版本被注释为具有四角坐标的旋转框。

3.1.2 评估指标

对数平均失误率

log-average missing rate (MR-2)用于 KAIST 数据集的评估。它表示9个FPPI值下的平均漏检率，这些值在对数区间中均匀采样。M R-2 的较低值，性能越好。

平均精度

Average Precision (AP) 是目标检测的常用评估指标。正样本和负样本应根据分类和交集对并集(IoU)阈值的正确性进行划分。通常，0.5 用作 IoU 阈值。一般来说，平均平均精度 (mAP) 表示所有类别的 AP 平均值。与 M R-2 不同，AP 和 mAP 值越高，性能越好。

3.2 实施细节

作者的方法是在Ubuntu 18.04服务器上使用PyTorch 1.7.1框架实现的，CPU i7-9700、64G内存和Nvidia RTX 3090 24G GPU。训练阶段需要60个epoch，批大小为8。

SGD优化器的初始学习率为1.0×10−2，动量为0.937。此外，权值衰减因子为0.0005，学习率衰减法为余弦退火。

图像的输入大小为640 × 640用于训练，640 × 512用于测试。

此外，马赛克和随机翻转用于数据增强。损失函数遵循原论文中YOLOv5和FCOS的检测器。在消融研究中，作者使用具有 NIN 融合的 YOLOv5 作为比较的默认基线。

3.3 消融实验

3.3.1 可学习参数对残差链接的影响

鉴于Shen等人已经证明了应用于两个分支的学习参数略好于在单个分支上的学习参数，作者评估了可学习参数在提出的CFE模块中应用于剩余连接两个分支的有效性。

实验结果如表2所示。与没有可学习参数的 CFE 模块相比，在两个分支上添加可学习参数会使 KAIST 数据集上的 MR 从 7.86% 降低到 7.63%，并在 FLIR 数据集上将 mAP50 从 77.1% 提高到 77.5%。

因此，应用于残差连接两个分支的可学习参数可以有效地实现性能增益，而不会显着增加我们的 CFE 模块中的计算成本。

表2 CFE 模块中可学习参数对 KAIST 和 FLIR 数据集的影响

(LP 表示应用于两个分支的学习参数）

3.3.2 CFE模块对单模态和双模态的影响

KAIST 和 FLIR 数据集上单模态 CFE 模块的实验结果如表3中所示，分为三组协调输出模态。

在第一组（第一行）中，作者应用 CFE 模块来增强 RGB 特征，利用来自热图像的补偿信息，并且只输出增强的 RGB 特征以进行后续检测，如图 4(a) 所示。作者的带有 CFE 模块的双分支方法在 KAIST 和 FLIR 数据集上分别优于仅 RGB 的单分支方法 0.65% 和 0.90%。

图4 （a）、（b）

在第二组（第二行）中，图 4(b) 中 CFE 模块的增强热特征在 KAIST 和 FLIR 数据集上分别比仅热检测器获得了 0.59% 和 1.20% 的增益。

表3中的前两行3表明 KAIST 数据集上的 RGB 特征的质量优于用于检测的热特征，而 FLIR 数据集上的热特征在质量上优于 RGB 特征。这可能是由于数据集、相机模型和其他元素的属性造成的。

将双 CFE 模块应用于 RGB 和热分支，相互收集互补信息，并利用增强 RGB 和热模态的融合特征进行最后一组（最后一行）的后续检测，在 KAIST 和 FLIR 数据集上分别优于基线方法 0.70% 和 1.00%。

因此，上述实验结果证明了作者提出的 CFE 模块的有效性，该模块既有利于 RGB 又有利于基于热的全局特征融合。

表 3 CFE 模块对 KAIST 和 FLIR 数据集的影响

MR 越低，越好
mAP越高，性能越好
在第三列中，字母 (a)∼(f) 表示图 5 中的融合模式

3.3.3 堆叠模块数量的影响

在本节中，提供了 FLIR 数据集上不同数量的堆叠 CFE 模块的 mAP 值。

表4 显示，随着堆叠模块数量的增加到 10，参数数量和 GPU 内存增加了 4 倍以上，而运行速度从 40.5 Hz 急剧下降到 17.3 Hz，在 mAP 方面的边际效益为 0.70%。

表4 与FLIR数据集上不同数量的堆叠模块的比较

先前的研究发现，视觉transformer相邻层的注意图表现出非常高的相似度。如图5(右)所示，在可视化不同堆叠数的特征图后，作者在实验中也发现了这种现象。因此，作者认为特征图的高度相似性可以导致边际性能改进，串联堆叠块并不是特征融合的有效解决方案。

图5（右） FLIR 数据集上不同数量的堆叠的 ICFE 模块的 CFE 模块的可视化结果

3.3.4 不同迭代次数的影响

KAIST 和 FLIR 数据集上不同数量的迭代的实验结果如表5中所示。仅使用一次迭代，迭代学习方法在 KAIST 数据集上将 MR 从 7.63% 降低到 7.17%，并在 FLIR 数据集上将 mAP50 从 77.50% 提高到 79.20%。

表5 与不同数量的迭代的比较

作者发现额外的迭代不会提高性能，并且一次迭代在作者的实验中取得了最好的结果。

如图5(中)所示，将ICFE模块的特征映射可视化。随着迭代次数的增加，发现不同模态特征之间的相互作用导致负面影响，背景信息逐渐增强。作者认为背景噪声的增强干扰可能导致性能下降。此外，由于迭代学习技术使用共享参数，更多的迭代不会产生额外的参数或内存成本。

图5（中） FLIR 数据集上不同迭代次数的 ICFE 模块的 CFE 模块的可视化结果

顶行是白天的图像对，底行是夜间的一个例子
第一列是输入图像，第 2 ∼ 5 列是来自迭代学习的特征图

3.3.5 不同空间特征收缩方法的影响

作者评估了多种现有方法，以找到特征信息丢失较少的可靠下采样方法，实验结果如表6所示，与其他下采样方法相比，混合池化产生了最好的结果，KAIST 和 FLIR 数据集上的 MR 分别为 7.17% 和 79.20%。因此，作者使用混合池化来压缩特征图并降低计算复杂度。

表6 与不同空间特征收缩方法的比较

3.3.6 不同输入模式的讨论

在本节中，进行了四组实验，以验证使用不同输入模式对 CFE 的有效性，实验结果如表7所示。

第一组(第1 ~ 2)展示了具有单一输入图像模态(RGB或热)的YOLOv5检测器KAIST和FLIR数据集上的实验结果。
在第二组（第 3 ∼ 5）中，提供了具有一个或两个输入图像模态（RGB 或 RGB+Thermal）的 YOLOv5+NIN 方法的结果。很明显，两种不同输入模式(第3行)的YOLOv5+NIN方法的性能大大优于YOLOv5方法(第1行和第2行)。然而，YOLOv5+NIN 方法将在使用相同的两种模态（第 4 ∼ 5）作为输入时带来较大的性能下降。
在第三组（第 6 ∼ 9 行）中使用作者提出的方法（YOLOv5+ICFE）进行了实验。与 RGB 和热图像相比，使用相同的两种模态图像仍然可以取得有竞争力的结果。这表明作者的方法可以为后续的检测阶段提供有区别的单模态特征，在KAIST和FLIR数据集上的性能下降很小，如第7行和第9行所示。这有利于缺少输入模式之一或图像质量差的场景。
在最后一组（第 10 ∼ 12 行）中，作者提出的方法（YOLOv5+ICFE+NIN）的检测性能显着下降，因为 NIN 模块附加到双 CFE 模块的输出。第 4 ∼ 5 和 11 ∼ 12 行的观察表明，当只有一个输入模式可访问时，NIN 对 YOLOv5+NIN 和作者提出的方法都是有害的。

表7 与不同输入模式的比较

R 表示 RGB
T 表示热
R+T 表示具有双重模态的输入
R+R 或 T+T 表示具有单一模态的输入并忽略其他模态
在第三列中，字母 (a)∼(f) 表示图 5 中的融合模式

3.3.7 与不同主干和头部的比较

为了评估提出的DMFF模块的有效性和通用性，首先在YOLOv5检测器上进行了实验，该检测器有三个不同的主干:VGG16、ResNet50和CSPDarkNet53。

如表8中所示：

KAIST 数据集上的结果表明，作者的方法在 VGG16、ResNet50 和 CSPDarknet53 上分别比基线方法高出 0.66%、0.97% 和 1.16%。
FLIR 数据集上的结果表明，作者的方法在 VGG16、ResNet50 和 CSPDarknet53 上的基线方法上也分别获得了 0.50%、1.50% 和 2.70% 的增益。

因此，得出结论，作者提出的DMFF模块适用于各种主干，在不同的评估指标下是有效的。

表8 与不同检测器和主干的比较

在 FCOS 检测器上进行评估，以进一步检查提出的 DMFF 模块的有效性和通用性。

实验结果如表8所示：

与基线方法相比，带有DMFF模块的FCOS在KAIST数据集上将MR从14.03%降低到12.96%
在KAIST数据集上增益为1.07%，mAP50从69.80%提高到71.70%
在FLIR数据集上增益为1.90%。

上述结果表明，提出的DMFF模块适用于基于锚点的检测器和无锚点检测器。最后，与其他主干和检测器相比，具有 CSPDarknet53 主干的 YOLOv5 检测器以相当数量的参数实现了最佳性能。

3.4 与最先进方法的比较

KAIST 数据集

表9 显示了作者的方法与 KAIST 数据集上现有方法的比较。可以观察到，作者的方法在合理的设置下超过了大多数最先进的方法，并在白天子数据集下获得了最低的漏检率。此外，表9 还说明了作者的方法在 RTX 3090 平台上以 38.46 Hz 运行。因此，作者的方法有利于需要高检测速度的目标检测场景。

粗体数字代表每列中的最佳结果

后缀 † 和后缀 ‡ 的方法分别使用 ResNet50 和 CSPDarkNet53 主干，而其他方法使用 VGG16 作为默认值

表9 在 KAIST 数据集上比较

FLIR 数据集

表10 显示了作者的方法与 FLIR 数据集上现有方法的比较。很明显，作者的方法优于所有现有方法并实现了最先进的性能。具体来说，在 mAP50、mAP75 和 mAP 指标方面达到了 79.20%、36.9% 和 41.4%。此外，对于 Bicycle、Car 和 Person 的类别，作者的方法分别达到 66.90%、89.00% 和 81.60%。此外，还使用 CFT 基线和提出的模块 (Ours*) 进行公平比较。很明显，作者的方法在所有 mAP50、mAP75 和 mAP 指标方面都优于CFT。

表10 FLIR数据集的比较

VEDAI 数据集

VEDAI 数据集的实验比较在表11中给出。虽然没有对小目标检测应用任何技巧，但作者的方法在mAP上仍然优于基线方法1.96%，并在现有方法中以76.62%的mAP获得了具有竞争力的结果。然而，在更严格的评估指标 mAP 下，与 Input Fusion 和 Mid Fusion 方法相比，作者的方法分别降低了 0.28%、1.37%。

表11 VEDAI 数据集的比较

3.5 定性分析

图 6 说明了 KAIST 和 FLIR 数据集上白天和夜间注意力图的样本可视化结果。

如图6(a)所示，肉眼很难检测出RGB图像中光照条件差下的行人，但是作者的方法仍然可以通过聚合RGB和热图像来识别和定位物体。此外，与行人和车辆混合的复杂城市交通场景带来了巨大的挑战，而作者的方法能够在辅助模态的帮助下区分不同类别的物体。
图6(b)说明基线方法对输入图像的不同区域的兴趣，导致更多的假阳性。
图6(c)说明作者的方法可以利用全局空间位置信息和不同对象之间的相关性来捕获高度鉴别特征。

图 6 KAIST 和 FLIR 数据集上注意力图的可视化结果

从左列到右列：

RGB 和热图像中的地面实况、NIN 融合方法 (Baseline) 和作者提出的方法的热图。

3.6 局限性

在本节中，提供了一些失败案例并分析了坐着提出的方法的局限性。

图 7 (a) 说明了作者的模型在某些情况下错误地将交通标志或树识别为人。在我们看来，误报的主要原因是交通标志或树的视觉外观相似性，以及 KAIST 数据集的图像质量较低。
图7 (b)中，两个重叠行人之间的遮挡也会导致FLIR数据集上的假阴性。
图 7 (c) 显示，作者的模型在 VEDAI 数据集上可能会错误地将安装在屋顶上的一些设备识别为汽车，因为它们在从鸟瞰的角度查看时具有相似的形状和颜色。