（数据集）RGBT-Tiny：大规模可见光-热红外（RGBT）小目标检测基准数据集

原创于 2025-11-20 22:06:01 发布 · 796 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #深度学习 #计算机视觉

目标检测方法专栏收录该内容

38 篇文章

订阅专栏

论文题目：可见热微小目标检测:基准数据集和基线

期刊：TPAMI

摘要：可见热小物体检测(RGBT SOD)是一项重要但具有挑战性的任务，具有广泛的应用，包括视频监控，交通监控，搜索和救援。然而，现有的研究主要集中在可见光或热态，而对rgbsod的研究很少。虽然已经开发了一些RGBT数据集，但由于数量不足、多样性有限、应用单一、图像不对齐、目标尺寸大等问题，无法为评价RGBT SOD算法提供一个公正的基准。在本文中，我们构建了第一个具有高多样性的rgbtsod(即rgbttiny)的大规模基准测试，包括115对序列，93 K帧和1.2 M手工注释。RGBT-Tiny包含丰富的对象(7类)和高多样性的场景(8类，涵盖不同的光照和密度变化)。请注意，超过81%的对象小于16×16，我们提供了配对的边界框注释和跟踪ID，为广泛的应用提供了极具挑战性的基准测试，例如RGBT图像融合，物体检测和跟踪。此外，我们提出了一种尺度自适应适应度(SAFit)测量，该测量在大小对象上都表现出高鲁棒性。所提出的SAFit可以提供合理的性能评价，提高检测性能。基于提出的RGBT- tiny数据集，对IoU和SAFit指标进行了广泛的评估，包括30种最新的最先进算法，涵盖四种不同类型(即可见通用物体检测、可见超氧化物歧义、热超氧化物歧义和RGBT物体检测)。

RGBT-Tiny：开启可见光-热红外小目标检测新纪元

引言

想象一下，在夜晚的城市道路上，无人机需要同时检测出几个像素大小的行人；在海上搜救任务中，需要从复杂背景中快速识别出远处的小船。这些场景对计算机视觉提出了极高的挑战：目标极小、光照复杂、背景干扰严重。如何让机器在这种极端条件下也能"看清"世界？

近日，国防科技大学的研究团队在IEEE TPAMI 2025上发表了一篇重要论文，提出了首个大规模可见光-热红外（RGBT）小目标检测基准数据集RGBT-Tiny，为解决这一难题提供了全新的思路和工具。

为什么需要RGBT-Tiny？

现有研究的三大痛点

1. 单打独斗的模态研究

传统研究要么专注于可见光图像，要么研究热红外图像，很少有人探索两者结合的潜力。就像只用一只眼睛看世界，我们错过了立体视觉带来的深度信息。可见光相机能捕捉丰富的纹理和色彩，但在夜间或恶劣天气下"失明"；热红外相机不受光照限制，但缺少细节信息。将两者结合，才能实现真正的全天候感知。

2. 数据集的"先天不足"

虽然已有一些RGBT数据集，但它们存在明显的局限性：

数量少：难以支撑深度学习模型的训练需求
目标太大：现有数据集中的目标往往占据较大像素区域，不适合真正的小目标场景
场景单一：缺乏足够的多样性
未对齐：可见光和热红外图像未经精确配准，影响融合效果

3. 评价指标的"偏见"

传统的IoU（交并比）指标对小目标"过于严格"。一个8×8像素的目标，仅仅2个像素的偏差就会导致IoU从1.0骤降至0.39！这种低容忍度使得我们难以客观评价小目标检测算法的真实性能。

RGBT-Tiny数据集：数字背后的故事

规模与质量并重

RGBT-Tiny数据集的规模令人印象深刻：

115个配对视频序列
93,000帧高质量图像
1,200,000个精确标注
超过2000小时的人工审核

但更重要的是其质量和多样性。

真正的"Tiny"

数据集中超过81%的目标小于16×16像素，97%的目标在小尺度范围内。这些目标被进一步细分为三个级别：

极小（Extremely Tiny）：1²~8²像素
微小（Tiny）：8²~16²像素
小（Small）：16²~32²像素

这种尺度分布真实反映了实际应用场景，如无人机高空巡航、远距离监控等。

丰富的场景多样性

数据集覆盖了8种典型场景：

海洋、湖泊、桥梁
城市道路、乡村道路
操场、机场、天空

包含7个目标类别（船、车、骑行者、行人、公交车、无人机、飞机）。

光照条件的全覆盖

这是RGBT-Tiny的一大亮点：

高光照：白天场景
中等光照：黄昏时分
低光照：夜晚但有城市灯光
不可见光照：完全黑暗环境

夜间序列占33.9%，其中超过70%处于低光照和不可见光照条件。这种设计使得数据集能够真实模拟全天候应用场景。

严格的数据质量控制

精确对齐：使用相机校准和单应性变换技术，确保可见光和热红外图像像素级对齐。

两步验证流程：

10名专业标注员独立标注，并交叉审核
每张图像由另外2名评审员复核，共5名评审员确保质量
不断修订直到无争议

这种严格的质量控制保证了数据集的可靠性。

SAFit：为小目标量身定制的评价指标

传统指标的困境

IoU指标对大目标很友好，但对小目标"太苛刻"。为什么？

假设一个8×8的小目标，预测框偏移2个像素：

真实框面积：64
预测框面积：64
重叠面积：36（约）
IoU = 36/92 ≈ 0.39

从1.0到0.39的巨大落差，显然不合理！

相反，NWD（归一化Wasserstein距离）指标对小目标友好，但在大目标上表现不佳。

SAFit：取长补短的智慧

论文提出的**SAFit（Scale Adaptive Fitness）**指标巧妙地结合了两者优势：

其中权重由目标尺寸自适应调整：

小目标：更依赖NWD，对位置偏差容忍度高
大目标：更依赖IoU，保持精确定位
中等目标：平滑过渡

这就像一个"智能开关"，能根据目标大小自动选择最合适的评价方式。

实验验证

在Cascade RCNN等检测器上的实验表明，SAFit的AP值在小目标上接近NWD，在大目标上快速切换到与IoU一致。

更重要的是，SAFit还可以用作训练损失。实验显示，使用SAFit损失训练的模型在不同检测器上都表现出高鲁棒性，甚至优于其单独的组成部分。

全面的基线评测：揭示挑战与机遇

研究团队对30个最新算法进行了系统评估，包括：

18个可见光通用检测方法（如Faster RCNN、YOLO、DETR系列）
3个可见光小目标检测方法（RFLA、QueryDet、C3Det）
3个热红外小目标检测方法（ACM、ALCNet、DNA-Net）
6个RGBT检测方法（UA-CMDet、QFDet、CMA-Det等）

关键发现

1. 端到端框架的崛起

DETR-based检测器（如Deformable DETR、DINO）和Diffusion-based检测器（如DiffusionDet）展现出显著优势。

2. 密集提议是王道

由于小目标外观线索极少，密集的候选提议（无论是锚框、查询还是其他形式）能提供更好的覆盖率。

3. 专用技术显身手

区域提议精炼、多尺度信息融合、上下文信息利用等小目标特定技术都展现出良好效果。

4. RGBT融合的力量

RGBT检测方法通过充分利用双模态互补信息，在两种模态上都实现了性能提升。特别是在低光照和不可见光照条件下，热红外模态提供了关键的补充信息。

数据集的挑战性

当前最佳方法的AP仅在20-30%左右，表明RGBT-Tiny确实是一个极具挑战性的基准。主要挑战包括：极小的目标尺寸、跨模态语义冲突、时空未对齐、类内差异大、类间相似性高、类别不平衡、严重遮挡、光照变化和复杂背景干扰。

应用前景：从实验室到现实世界

RGBT-Tiny数据集的应用潜力巨大：

1. 智能监控

夜间公共安全监控
边境巡逻
关键基础设施防护

2. 无人驾驶

全天候行人和车辆检测
恶劣天气条件下的感知

3. 搜索救援

海上搜救
灾难现场人员定位
高空搜索任务

4. 交通监控

智能交通管理
违章检测
流量统计

5. 军事应用

反无人机系统
目标识别与跟踪
态势感知

技术启示：未来研究方向

基于RGBT-Tiny的评测结果，我们可以看到几个有前景的研究方向：

1. 更强的多尺度表征 小目标检测需要更精细的特征金字塔和自适应尺度融合机制。

2. 跨模态对齐与融合 如何克服时空未对齐和语义冲突，实现更有效的RGBT信息融合？

3. 上下文感知机制 利用场景上下文、时序信息和空间关系来辅助小目标检测。

4. 类别平衡策略 针对长尾分布问题，设计更好的损失函数和采样策略。

5. 弱监督和无监督方法 减少对大量精确标注的依赖，降低数据采集成本。

结语

RGBT-Tiny数据集的发布，标志着可见光-热红外小目标检测研究进入了一个新阶段。它不仅提供了一个极具挑战性的测试平台，更重要的是为研究者指明了方向，揭示了当前技术的瓶颈和未来的机遇。

SAFit评价指标的提出，则为小目标检测提供了更合理的评价标准，有望推动该领域算法的实质性进步。

正如论文作者所期望的，RGBT-Tiny不仅是一个数据集，更是一个生态系统的起点——它将催生新的算法、新的应用、新的研究范式，最终让机器在极端条件下也能拥有"火眼金睛"。

免责声明：本文基于论文内容进行解读，所有技术细节和数据均来自原论文。如需深入了解，请阅读原文。