论文阅读 | TIPAMI 2025 | 可见光 - 热红外微小目标检测(RGBT SOD):一个基准数据集和基线方法
题目:Visible-Thermal Tiny Object Detection: A Benchmark Dataset and Baselines
会议:TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE(TIPAMI)
论文:https://doi.org/10.1109/TPAMI.2025.3544621
代码:https://github.com/XinyiYing/RGBT-Tiny
年份:2025
1.摘要&&引言
**可见光 - 热红外小目标检测(RGBT SOD)**是一项意义重大但颇具挑战的任务,在视频监控、交通监测、搜索救援等领域有着广泛应用。
小目标检测(通常指尺寸小于32×32像素的目标)因其固有的挑战性,在视频监控、自动驾驶和水上救援等领域具有重要应用价值,已成为目标检测领域一个独特且具有挑战性的研究方向。
当前小目标检测面临三大核心挑战:
-
特征表示限制:小目标尺寸极小,外观特征有限,难以有效学习特征表示;同时复杂背景杂波易导致误检
-
数据集匮乏:缺乏大规模、高质量的小目标检测专用数据集,严重制约了技术发展
-
评估指标局限:传统的基于交并比(IoU)的评估指标对小目标边界框扰动容忍度低,难以保证高定位精度
为解决上述问题,本研究构建了首个大规模RGBT小目标检测基准数据集(RGBT-Tiny),其核心创新包括:
-
双模态对齐采集:专业无人机搭载垂直排列的RGBT双镜头,通过单应性变换实现时空对齐
-
高精度标注体系:采用DarkLabel工具完成类别、边界框及遮挡等级标注,经两阶段人工审核保障质量
-
多维度覆盖:涵盖7类目标(船舶、汽车、行人等)、4城市8场景、全年不同光照条件,支持多任务研究
综上,本文做出以下贡献:
-
构建了首个大规模可见光-热红外(RGBT)双模态小目标检测数据集(RGBT-Tiny),解决了现有数据集存在的模态单一、数量不足、多样性有限、图像未对齐及目标尺寸较大等问题
-
提出了一种新型尺度自适应适应度(SAFit)度量方法,结合IoU和归一化Wasserstein距离(NWD),通过尺寸感知的sigmoid加权求和实现不同尺寸目标的稳健评估
-
开发了相应的SAFit损失函数,并基于RGBT-Tiny数据集对30种先进算法进行了全面评估,为RGBT小目标检测研究提供了新的基准和见解
图1:RGBT-Tiny数据集的示例帧。顶部展示了场景(标注数量/帧数),底部展示了序列级别的属性。粉色、绿色和黄色圆圈分别代表光照视觉水平(即H:高,M:中,L:低,In:不可见)、目标大小(即Et:极小,T:微小,S:小,M:中,L:大)以及标注密度(即S:稀疏,M:中等,D:密集)。
2.RGBT-Tiny 基准数据集
2.1 数据采集与标注规范
数据采集:我们使用专业无人机大疆 Mavic 2 作为数据采集平台,确保在极端条件下稳定飞行。无人机配备垂直排列的 RGBT 双镜头,从 60 - 100 米的高度采集 RGBT 视频序列。可见光和热红外相机的帧率为 30,在公开视频中,我们将视频序列采样为 15 帧 / 秒(FPS),以突出时间运动。热红外相机的波长为 8 - 14μm,可见光和热红外相机的图像尺寸不同(即 RGB 图像为 1080×1920,热红外图像为 512×640)。
数据调整:首先进行相机校准,去除 RGBT 图像中的镜头畸变。然后,由于 RGBT 相机的位置相对固定,我们使用单应性变换将 RGB 图像对齐到热红外图像。为了解决 RGBT 图像之间的分辨率差异,我们裁剪对齐后的 RGB 图像补丁,使其与热红外图像一致,生成分辨率为 640×512 的成对 RGBT 图像。需要注意的是,单应性变换只能在固定景深内进行帧对齐,双镜头固有的视差变化尚未得到很好的解决,这是一个值得研究的挑战。
标注真值:我们使用 DarkLabel 工具标注带有相应类别和跟踪 ID 的标注真值(GT)边界框。除了在极端条件下少数无法识别的标注外,RGBT 标注是一一对应的。为了保证标注质量,我们花费了 2000 多个小时进行两步验证:第一步,十位专业标注员分别进行标注,并相互审核;第二步,每张图像由另外两名评估人员(共五名评估人员)进行评估,不断复查标注,直到没有疑问。
训练集和测试集:为了避免数据偏差和过拟合,我们按照以下标准将训练集和测试集分别划分为 85 个和 30 个视频序列:每个子集涵盖所有类型的场景和物体;每个子集涵盖所有光照和密度变化;两个子集不重叠。
2.2 数据集统计特性
类别分布:7大类目标(船舶、汽车、骑行者、行人、公交、无人机、飞机),热红外图像中船舶、行人标注数量显著高于可见光图像;
密度分布:
稀疏(1-10目标/帧)、中等(10-50)、密集(>50);
城市道路场景密度峰值达161目标/帧;
尺度分布:
极小目标(1²-8²像素):22%;
微小目标(3²-16²像素):48%;
小目标(16²-32²像素):30%;
实际尺寸受拍摄距离与角度影响,需结合上下文信息判断;
遮挡处理:
短时遮挡(≤5帧):时间插值补全;
长时遮挡(>5帧):暂未处理;
遮挡分级:轻度(5-10帧)、中度(10-20帧)、重度(>20帧)。
图2:(a) 可见光和热红外模态下各目标类别的标注数量。数字表示每个类别在标注中所占的比例。(b) 内圈显示不同场景类别的序列数量,外圈显示场景的光照视觉分布。饼图中的数字代表每种场景类型的序列数量。图例中的数字代表每种光照视觉在标注中所占的比例。
图3:(a) 每个序列的平均每帧标注数量(即标注密度) 。每个目标类别的尺寸分布。圆越大代表密度越高,不同颜色代表不同的场景类型。(x, y, z) 是不同密度级别(即稀疏、中等、密集)的序列数量。(b) 每个目标类别的尺寸分布。不同颜色的线条代表不同的尺度级别。半径表示标注数量,每条颜色线下的面积代表每个尺度级别的标注总数。
表1:现有RGB小目标检测数据集(RGB-SOD)、热红外小目标检测数据集(T-SOD)、RGBT跟踪数据集(RGBT-T)、RGBT检测数据集(RGBT-D)与我们的RGBT-Tiny数据集之间的统计比较。“Seq.”、“Frame”、“Anno.”、“T-Cat.”和“S-Cat.”分别表示序列数量、帧数、标注数量、目标和场景类别数量。“FPS”是发布视频序列的帧率。“Split”表示数据划分方式。“Align”表示RGBT图像是否对齐(Y表示是,N表示否)。“ID”表示是否提供跟踪ID(Y表示是,N表示否)。“Pub”和“Year”分别表示出版物名称和年份。
2.3 尺度自适应适应度(SAFit)度量
归一化 Wasserstein 距离(NWD) 已被证明对小目标检测友好,因为它具有尺度不变性,并且对位置偏差具有平滑性。其公式定义为:
归一化Wasserstein距离(NWD):
N
W
D
(
K
)
=
exp
(
−
W
2
2
(
N
p
,
N
g
t
)
K
)
NWD(K) = \exp \left( -\frac{\sqrt{W_{2}^{2}\left( \mathcal{N}_{p}, \mathcal{N}_{gt} \right)}}{K} \right)
NWD(K)=exp(−KW22(Np,Ngt))
其中:
W
2
2
(
N
p
,
N
g
t
)
=
∥
(
N
p
T
,
N
g
t
T
)
∥
2
2
W_{2}^{2}\left( \mathcal{N}_{p}, \mathcal{N}_{gt} \right) = \left\| \left( \mathcal{N}_{p}^{T}, \mathcal{N}_{gt}^{T} \right) \right\|_{2}^{2}
W22(Np,Ngt)=
(NpT,NgtT)
22
- N p = [ c x p , c y p , w p / 2 , h p / 2 ] \mathcal{N}_{p} = [c x_{p}, c y_{p}, w_{p}/2, h_{p}/2] Np=[cxp,cyp,wp/2,hp/2]:预测边界框的高斯分布参数
- N g t = [ c x g t , c y g t , w g t / 2 , h g t / 2 ] \mathcal{N}_{gt} = [c x_{gt}, c y_{gt}, w_{gt}/2, h_{gt}/2] Ngt=[cxgt,cygt,wgt/2,hgt/2]:标注真值边界框的高斯分布参数
- K K K:与数据集相关的超参数
然而,这种尺度不变的绝对距离度量,无法对大尺寸物体进行合理评估。
交并比(IoU)是一种常用于大尺寸通用物体性能评估的合理指标。其公式定义为:
交并比(IoU):
I
o
U
=
S
p
∩
S
g
t
S
p
∪
S
g
t
IoU = \frac{S_{p} \cap S_{gt}}{S_{p} \cup S_{gt}}
IoU=Sp∪SgtSp∩Sgt
- S p S_{p} Sp:预测边界框面积
- S g t S_{gt} Sgt:标注真值边界框面积
尽管 IoU 具有尺度不变性、对称性等优点,但它对小目标边界框的扰动容忍度较低,如图 4(b)所示。
为了结合 IoU 和 NWD 的优点,同时避免它们的缺点,我们开发了一种尺度自适应适应度(SAFit)度量方法,对大、小物体均具有高鲁棒性。具体而言,我们通过尺寸感知的 Sigmoid 加权求和,将 IoU 和 NWD 结合起来:
SAFit数学模型:
S
A
F
i
t
=
1
1
+
e
−
(
A
/
C
−
1
)
×
I
o
U
+
(
1
−
1
1
+
e
−
(
A
/
C
−
1
)
)
×
N
W
D
(
C
)
SAFit = \frac{1}{1+e^{-(\sqrt{A}/C-1)}} \times IoU + \left(1-\frac{1}{1+e^{-(\sqrt{A}/C-1)}}\right) \times NWD(C)
SAFit=1+e−(A/C−1)1×IoU+(1−1+e−(A/C−1)1)×NWD(C)
其中,Sigmoid 函数表示一个软切换,可以根据相应的边界框大小快速切换到合适的度量方法。A 是标注真值边界框的面积,c 是一个常数,以尺寸感知的方式平衡 NWD 和 IoU 度量。也就是说,当 A = C 2 A = C^{2} A=C2时,NWD 和 IoU 的贡献相等。A 的值越小(即标注真值边界框的尺寸越小),NWD 的主导作用越强;A 的值越大,IoU 的比例越高。
总之,SAFit 适用于包含不同尺寸物体的实际应用。不同 c 值(即 16、32)下,IoU 和 SAFit 的定量比较如图 4 所示。
图4:(a) 展示了真实边界框(GT bbox)中心点与预测边界框中心点之间的像素偏差示意图。(b) 不同尺寸边界框的交并比(IoU)偏差曲线。©-(d) 在不同C值下的SAFit偏差曲线。横坐标表示像素偏差的数量,纵坐标表示相应的度量值。
注意,由于边界框的位置只能离散变化,曲线以散点图的形式呈现。
可以观察到,当标注真值边界框的尺寸大于 c 时,SAFit 与 IoU 一致;当标注真值边界框的尺寸减小时,SAFit 迅速转向 NWD,对边界框扰动具有高鲁棒性。通过调整 c 的值,SAFit 可以为不同的定制需求提供灵活的应用。对于我们的数据集,由于小目标定义为小于 32×32,我们将 c 设置为 32。
此外,我们开发了 SAFit 损失函数即 L S A F i t = 1 − S A F i t L_{SAFit}=1 - SAFit LSAFit=1−SAFit
用于网络训练,它可以为不同尺寸的物体提供稳定、准确的优化指导。需要注意的是,SAFit 损失函数的每个组件(即 IoU 和 NWD),都可以灵活地被新的度量方法替代。
表2:不同检测器配备不同损失函数时基于SAFit的结果。SAFit-s和SAFit用于研究直接转换(即当标注真值(GT)边界框尺寸小于c时,损失函数设置为NWD,反之则设置为IoU )和更强组件(即广义交并比(GIoU)与NWD的Sigmoid加权求和)的效果。
3.实验
3.1 尺度自适应适应度度量SAFit
评估指标:我们采用 IoU、NWD 和 SAFit 指标对可见光模态下的 Cascade RCNN 进行性能评估,更多结果见补充材料。
如图 5(a)所示,当 GT 边界框较小时,SAFit 的平均精度(AP)值更接近 NWD 的 AP 值;随着尺寸增加,SAFit 的 AP 值迅速转变为与 IoU 的 AP 值一致。总之,SAFit 对大、小物体都能给出综合合理的评估。因此,除非另有说明,以下所有实验结果均采用 SAFit 指标进行评估。用于训练的 SAFit
损失函数:我们将不同的损失函数(即 IoU 、DIoU 、CIoU 、GIoU 、NWD 和 SAFit 损失函数)应用于不同的检测器(即 ATSS 、SparseRCNN),并在可见光模态下相同设置下训练网络。注意,我们采用 SAFit 损失函数的两个变体(即 SAFit-s 和 SAFit g _{g} g)来研究直接转换(即当 GT 边界框尺寸小于 c 时,损失函数设为 NWD,反之设为 IoU)和更强组件(即 GIoU 和 NWD 的 Sigmoid 加权求和)的性能。
基于 SAFit 的结果如表 2 所示,相应基于 IoU 的结果见补充材料。可以看出,SAFit 损失函数在 SAFit 和 IoU 指标下对不同检测器都具有较高的鲁棒性。与 SAFit 相比,SAFit-s 性能稍逊,而 SAFit g _{g} g性能有所提升,这证明了 SAFit 的优越性和灵活性。此外,SAFit g _{g} g和 SAFit 相比其组件实现了更高的值,这表明 SAFit 不仅可以结合其组件的优点,还能通过为不同尺寸的物体提供更稳定、平滑的训练实现突破。
图5:(a)展示了不同性能评估指标之间的比较。APs et、APs t、APs s、APs m、APs l分别代表极微小、微小、小、中、大物体的平均精度(AP)值。(b)研究了RGBT融合的影响。“VV”、“TT”、“VT”分别代表输入重复可见光、重复热红外和RGBT的模型。“-V”、“-T”分别代表用于训练和测试的可见光、热红外标签。APi h、APi m、APi l、APi in分别代表在高光、中光、低光、无光照明条件下的AP值。(e)展示了不同类别的性能比较。
3.2 基线结果
我们对 30 种近期最先进的检测方法进行了全面评估,包括 18 种可见光通用目标检测方法(如 SSD 、YOLO 、TOOD 、Faster RCNN 、SABL 、Cascade RCNN 、Dynamic RCNN 、RetinaNet 、CenterNet 、FCOS 、ATSS 、VarifocalNet 、Deformable DETR 、Sparse RCNN 、CO-DETR 、DiffusionDet 、DINO 、DDQ )、3 种可见光小目标检测方法(如 RFLA 、QueryDet 、C3Det )、3 种热红外小目标检测方法(如 ACM 、ALCNet 、DNA-Net )以及 6 种 RGBT 检测方法(如 UACMDet 、ProbEn-early 、ProbEn-middle 、QFDet 、CALNet 、CMA-Det )。基于 SAFit 的结果如表 3 所示,基于 IoU 的结果见补充材料。所有模型均在 RGBT-Tiny 数据集上重新训练和评估,以确保公平比较。
表3:现有可见光通用检测(V-D)、可见光小目标检测(V-SOD)、热红外小目标检测(T-SOD)、RGBT检测方法(RGBT-D)在RGBT-Tiny数据集上基于SAFit的结果。“#Param.”表示参数数量。“(-)”表示在重复可见光或热红外输入下训练的网络,用于研究多模态融合的影响。请注意,T-SOD的结果是使用由边界框在均匀分布和高斯分布下生成的硬(左侧)、软(右侧)掩码进行训练得到的。
所有模型均基于 mmdetection 代码库 ,采用默认参数(优先选择 ResNet50 和 FPN 作为骨干网络和颈部网络)和训练设置实现。我们减小了两阶段方法的初始锚框大小以适应小目标。
热红外小目标检测方法只能进行前景和背景分割。为了对多类别边界框进行性能评估,我们首先扩大基于卷积神经网络(CNN)的热红外小目标检测模型的输出通道,以进行多类别分割。然后,我们采用均匀分布和高斯分布生成每个类别的硬(即边界框内所有像素均被设为正像素)和软(即边界框内像素根据高斯分布被赋予概率值 )掩码标注用于训练。在测试时,我们通过每个连通区域的最小外接矩形将基于掩码的结果转换为基于边界框的结果。
从表 3 结果可知,软掩码能够为合理的评估结果提供稳定的训练,从而突破了可见光和热红外小目标检测方法之间的评估差距。
表 3 的实验结果表明了一些有效的范式:
-
端到端检测框架展现出显著优势,包括基于 CNN 的检测器 、基于 DETR 的检测器 、基于扩散的检测器 。由于外观线索不足,密集的候选框(如基于锚框的 、无锚框的 、基于查询的 )对 RGBT-Tiny 基准更友好。此外,一些技术(如基于去噪的位置回归 、对比样本平衡 )展现出巨大潜力。
-
针对小目标的范式前景广阔,包括区域提议优化 、多尺度信息融合 、上下文信息利用 。
-
RGBT 检测方法能够充分利用 RGBT 的互补信息,提升两种模态下的性能,如表 3 和图 5(b)所示。其中,光照感知 、抗未对齐能力 、语义调制 能够很好地解决跨模态语义冲突,实现卓越性能。
-
多维度信息(如外观 、上下文 、运动 )融合有助于提高识别精度。
与其他公开基准 相比,RGBT-Tiny 是一个极具挑战性的基准。
-
极小的目标尺寸和极少的外观线索严重限制了特征表示学习,导致高漏检率和误报率,如图 6(a)所示。
-
跨模态语义冲突、时空未对齐和低光照条件常常导致严重的多模态融合错误和性能大幅下降,如图 6(b)、(c)所示。
-
类间同质性和类内差异导致语义模糊,限制了识别性能,如图 6(d)、(e)所示。
-
类别不平衡导致训练偏差,使得对实例较少的类别(如公交车、骑行者)性能有限,如图 5(c)所示。
除上述挑战外,更多失败案例主要源于严重遮挡(如图 6(f)所示)、光照变化(如图 6(g)所示)、复杂背景杂波(如图 6(h1)、(h2)所示)。
图6:具有挑战性场景的示例。绿色框显示放大的目标区域。红色框及其中的文本代表标注真值(GT)边界框和类别。
4.结论
本文构建了首个用于 RGBT 小目标检测的大规模基准数据集(即 RGBT-Tiny)。RGBT-Tiny 是一个极具挑战性的基准,包含丰富的物体和多样的场景,应用范围广泛,涵盖 RGBT 图像融合、目标检测和跟踪。此外,我们提出了尺度自适应适应度度量方法(SAFit),对大、小物体均具有高鲁棒性,能够提供合理的性能评估和优化的训练过程。基于所提出的 RGBT-Tiny 数据集,我们使用 IoU 和 SAFit 指标对 32 种近期最先进的检测算法进行了全面评估,并总结了面临的挑战和有效的解决方案。在未来工作中,我们旨在进一步扩大数据量、优化标注、构建基础模型、利用时间信息,并探索弱监督和无监督的 RGBT 小目标检测。