红外与可见光图像融合数据集（2025 持续更新）

陈嘿萌

已于 2025-05-13 10:51:31 修改

阅读量2.5k

点赞数 28

分类专栏：图像融合数据集文章标签：红外与可见光图像融合数据集持续更新新数据集研究基石 IVIF Dataset

于 2025-05-13 10:46:03 首次发布

本文链接：https://blog.csdn.net/weixin_43312117/article/details/147834992

版权

图像融合同时被 2 个专栏收录

4 篇文章

订阅专栏

数据集

1 篇文章

订阅专栏

红外与可见光图像融合数据集

引言

2025年05月13日10:46:33

整理现有的红外与可见光图像融合数据集，提供对应数据集名称，论文，简介以及下载链接。本博客将持续更新，追踪最新研究中存在的图像融合数据集，以供各位科研人员能更便捷的找到对应研究的数据“基石”。

MSRS数据集

发表团队：武汉大学-Jiayi Ma团队：Linfeng-Tang

参考论文：PIAFusion: A progressive infrared and visible image fusion network based on illumination aware

下载链接：https://github.com/Linfeng-Tang/MSRS

作者基于 MFNet 数据集构建了一个新的多光谱数据集，用于红外和可见光图像融合。MFNet 数据集包含 1,569 对图像（820 对在白天拍摄，749 对在夜间拍摄），空间分辨率为 480 × 640。然而，MFNet 数据集中存在许多未对齐的图像对，并且大多数红外图像信噪比低且对比度低。为此，作者首先通过移除 125 对未对齐的图像对，收集了 715 对白天图像和 729 对夜间图像。此外，利用基于暗通道先验的图像增强算法来优化红外图像的对比度和信噪比。因此，发布的新的多光谱道路场景（MSRS）数据集包含 1,444 对高质量的对齐红外和可见光图像。

在这里插入图片描述

RoadScene数据集

发表团队：武汉大学-Jiayi Ma团队：hanna-xu

参考论文：U2Fusion: A Unified Unsupervised Image Fusion Network

下载链接：https://github.com/hanna-xu/RoadScene

该数据集有 221 对配准的 Vis 和 IR 图像对，其中包含丰富的场景，如道路、车辆、行人等。这些图像是 FLIR 视频中极具代表性的场景。对原始 IR 图像中的背景热噪声进行预处理，准确对齐 Vis 和 IR 图像对，并切出确切的配准区域以形成此数据集。

在这里插入图片描述

M3FD数据集

发表团队：大连理工大学-Risheng Liu团队：JinyuanLiu

参考论文：Target-aware Dual Adversarial Learning and a Multi-scenario Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection

下载链接：https://github.com/JinyuanLiu-CV/TarDAL

数据采集系统包含一个双目光学相机和一个双目红外传感器，数据采集地点包括大连理工大学校园、大连金石滩国家旅游度假区和大连金州区的主要道路。数据集共包含8400张图像用于融合、检测和基于融合的检测，其中600张为独立场景的融合图像。图像对总数为4200对，其中300对为独立场景的融合图像。图像格式为24位灰度位图（红外）和24位彩色位图（可见光），图像尺寸主要为1024 x 768像素。所有图像对均经过配准，可见光图像通过系统内部参数校准，红外图像通过单应矩阵进行人工失真处理。数据集共标注了34407个目标，涵盖6种类别：行人、汽车、公交车、摩托车、路灯和卡车。

在这里插入图片描述

TNO数据集

发表团队： dataset posted on 2022-10-15, 18:35 authored by Alexander Toet

参考论文：The TNO Multiband Image Data Collection

下载链接：https://figshare.com/articles/dataset/TNO_Image_Fusion_Dataset/1008029

TNO多波段图像集目前包含三个独立的图像集：TNO图像融合数据集、Kayak图像融合序列（第一部分和第二部分）以及TRICLOBS动态多波段图像数据集。TNO图像融合数据集包含不同军事和监视场景的增强视觉、近红外和长波红外夜间图像，展示了不同背景下的各种物体和目标。多模态的Kayak图像融合序列包含配准的视觉、近红外和长波红外图像序列，展示了在复杂海上背景中接近的三艘皮划艇。TRICLOBS动态多波段图像数据集包含城市环境中动态监视场景的配准视觉、近红外和长波红外运动序列。为了支持开发或实现逼真的色彩重映射程序，该数据集还包含每个场景的彩色照片。作者计划在获得新图像时逐步扩展该数据集的收集。

在这里插入图片描述

LLVIP数据集

发表团队：北京邮电大学- Chuang Zhu团队

参考论文：LLVIP: A Visible-infrared Paired Dataset for Low-light Vision

下载链接：https://github.com/bupt-ai-cz/LLVIP

LLVIP是一个专为低光照视觉任务设计的可见光-红外配对数据集，包含16,836对严格时空对齐的图像，采集于极暗环境（晚6点至10点），使用HIKVISION双目摄像头（可见光分辨率1920×1080，红外1280×720），注册后统一为1080×720分辨率以确保视场一致。该数据集通过红外图像反向映射标注可见光图像中的行人，覆盖26个场景的丰富行人目标（中距离中等尺寸），支持图像融合、低光行人检测及图像转换等任务。LLVIP在规模（16,836对）、低光条件、时空对齐精度及行人标注密度（每对均含行人）上显著领先，尤其适用于算法在极端暗光下的鲁棒性验证。

在这里插入图片描述

FMB数据集

发表团队：大连理工大学-Risheng Liu团队：JinyuanLiu

参考论文： Multi-interactive Feature Learning and a Full-time Multi-modality Benchmark for Image Fusion and Segmentation

下载链接：https://github.com/JinyuanLiu-CV/SegMiF

FMB（Full-time Multi-modality Benchmark）是一个面向全天候复杂场景的多模态基准数据集，包含1500对严格时空配准的红外与可见光图像（分辨率800×600），覆盖雾天、暴雨、低光等多种极端环境。数据集通过智能双目成像系统采集，确保图像对的高精度对齐，并提供像素级标注的14类语义标签（如道路、行人、车辆、交通标志等），标注覆盖率高达98.16%，适用于自动驾驶与语义理解任务。

在这里插入图片描述

FLIR数据集

发表团队：Teledyne FLIR

参考博客：FREE Teledyne FLIR Thermal Dataset for Algorithm Training

下载链接：https://www.flir.com/oem/adas/adas-dataset-form/

FLIR ADAS 数据集包含共计 26,442 帧带有完整边界框标注的图像，涵盖 15 类目标，累计标注达 52 万个。其中包括 9,711 张热红外图像与 9,233 张可见光图像的训练/验证集（建议划分方式），以及 7,498 帧以 24Hz 录制的红外-可见光配对视频帧。图像帧总标注超过 37.5 万个，视频帧标注超过 14.5 万个。标注类别涵盖常见交通与街景对象，如行人、车辆、交通灯、宠物等。数据支持 16-bit 无自动增益控制（pre-AGC）TIFF 热图、8-bit JPEG 热图（AGC处理后）、以及可见光 JPEG 图像，标注采用 MSCOCO 与 Conservator 格式。图像采集使用的是 Teledyne FLIR Tau 2 热成像仪（640×512, 45°HFOV）和 Blackfly S 可见光相机（IMX250, 52.8°HFOV）。

在这里插入图片描述

MFNet数据集

发表团队：东京大学-Harada/Ushiku团队：Qishen Ha

参考论文：MFNet: Towards real-time semantic segmentation for autonomous vehicles with multi-spectral scenes

下载链接：https://www.mi.t.u-tokyo.ac.jp/static/projects/mil_multispectral/

作者构建并公开了一个全新的RGB-热红外（RGB-Thermal）语义分割数据集，以支持自动驾驶场景下多光谱图像的语义理解研究。该数据集共包含 1569 张城市道路场景图像，其中 820 张为白天拍摄，749 张为夜间拍摄，每张图像均具备像素级别的语义标注，涵盖了 8 类常见障碍物（如汽车、行人、自行车、弯道、停车标志、护栏、交通锥和减速带）。图像采集使用的是 InfRec R500 设备，分别获取了可见光（RGB）和热红外（IR）图像，均具有 480×640 的空间分辨率。为保证视场一致性，作者对RGB图像进行裁剪以与红外图像对齐。该数据集是首个公开的用于自动驾驶语义分割的 RGB-热红外多光谱数据集，有助于提升在低照度或夜间条件下的环境感知能力，并对图像分割算法的鲁棒性提出更高要求。

在这里插入图片描述

KAIST数据集

发表团队：Korea Advanced Institute of Science and Technolog（韩国科学技术院，KAIST）

参考论文：Multispectral Pedestrian Detection: Benchmark Dataset and Baseline（KAIST Multispectral Pedestrian Detection Benchmark）

下载链接：https://github.com/SoonminHwang/rgbt-ped-detection

KAIST Multispectral Pedestrian Dataset 是由韩国科学技术院（KAIST）构建的一个用于行人检测研究的大规模多光谱数据集。该数据集采用基于分光器的成像硬件，精确对齐了 RGB 与热红外图像，具备 95,328 对对齐的图像帧，涵盖白天与夜间的真实交通场景。数据集提供了超过 10 万个密集标注的行人实例，包含遮挡标签（无遮挡、部分遮挡、严重遮挡）和时间序列对应信息，适用于检测、跟踪和识别等任务。图像分辨率统一为 640×512，帧率为 20 fps，热成像通过 FLIR A35 设备采集。相比已有数据集，KAIST 数据集在数据规模、遮挡信息、时间一致性与色热对齐精度等方面具有显著优势，是研究多模态行人检测的基准数据集之一。

在这里插入图片描述

PST900数据集

发表团队：GRASP Laboratory（University of Pennsylvania，宾夕法尼亚大学）

参考论文：PST900: RGB-Thermal Calibration, Dataset and Segmentation Network

下载链接：https://github.com/ShreyasSkandanS/pst900_thermal_rgb

PST900（Penn Subterranean Thermal 900）是由宾夕法尼亚大学 GRASP 实验室提出的一个用于RGB-热红外图像语义分割的标注数据集，旨在提升机器人在地下复杂环境中的感知能力。该数据集包含 894 对已校准对齐的 RGB 和 LWIR（长波红外）图像对，并提供了逐像素的人工标注，涵盖灭火器、背包、电钻和受困者等四类关键目标。此外，数据还包括 3416 张额外标注的 RGB 图像，用于增强模型的训练泛化能力。图像采集于如矿井、隧道等低光甚至无光照环境，使用 FLIR Boson 热像仪和 Stereolabs ZED Mini 立体相机完成。该数据集特别强调了被动式校准方法的便捷性，以及 RGB 与热图融合在分割精度上的提升。作者还提出了一种双流 CNN 网络架构，利用 RGB 作为主干，融合热红外信息以增强预测效果，在 PST900 上取得了比 MFNet 与 RTFNet 更优的性能表现。

在这里插入图片描述

HDO数据集

发表团队：云南师范大学-YangYang团队：Housheng Xie

下载链接：https://github.com/xiehousheng/HDO

参考论文：RCVS: Round-the-Clock Video Stream registration and fusion scheme

HDO（High-Quality Dual-Optical Video Sequence Dataset）是一个高质量的红外与可见光视频序列数据集，旨在支持图像融合、配准和目标跟踪等多模态视觉任务的研究。该数据集主要采集了街道和校园等典型场景的视频，原始视频以100毫秒的间隔采样，红外图像分辨率为1280×1024，可见光图像分辨率为1920×1080，数据总量约为8.5GB。此外，HDO还提供了5788对对齐的红外-可见光图像对，分辨率统一为640×480，数据量约为1.0GB，便于多模态算法的开发与评估,供学术研究和非商业用途使用。

在这里插入图片描述

MMVS数据集

发表团队：云南师范大学-Yang Yang团队：Meng Sang

参考论文：VRFF: Video Registration and Fusion Framework

下载链接：https://github.com/Meng-Sang/VRFF，https://github.com/Meng-Sang/MMVS

MMVS（Multi-modal Multi-scene Video Sequences）是一个专为夜间道路场景下红外与可见光视频融合与配准研究设计的多模态视频数据集。该数据集基于 FLIR 数据集整理而成，包含六组视频序列，每组包括红外视频、可见光视频以及手动对齐的红外-可见光图像对，每种类型的视频序列均包含 2151 帧图像。图像分辨率分别为红外图像 640×512 和可见光图像 1224×1024，图像格式为 JPG。该数据集特别关注低光照和强眩光等复杂环境下的图像融合与配准问题，为多模态视觉感知算法的开发与评估提供了高质量的测试资源。MMVS 数据集已在 GitHub 上开源，可供学术研究和非商业用途使用。

在这里插入图片描述

DVTOD数据集

发表团队：东北大学-Kechen Song, Yunhui Yan团队

参考论文：Misaligned Visible-Thermal Object Detection: A Drone-based Benchmark and Baseline

下载链接：https://github.com/VDT-2048/DVTOD

可见光-热成像图像对是通过无人机获取的未对齐图像，为研究人员研究未对齐的多光谱目标检测方法提供了基础。获取的图像对包含更具挑战性的属性，如雨、雪、雾、极端曝光、黑暗以及特殊材料遮挡，这些属性更符合真实世界的数据分布。该数据集的质量高于其他数据集的图像对，可见光图像的分辨率为1920×1080，热成像图像的分辨率为640×512。该数据集包含一天中不同时间段以及一年中所有季节的数据。

在这里插入图片描述

AWMM-100k数据集

发表团队：佛山大学-李小松团队：Xilai Li

参考论文：All-weather Multi-Modality Image Fusion: Unified Framework and 100k Benchmark

下载链接：https://github.com/ixilai/AWFusion

现有的MMIF数据集在恶劣天气场景的覆盖上不够全面。为了解决这一问题，作者引入了AWMM-100k，这是一个基准数据集，通过从RoadScene、MSRS、M3FD和LLVIP中选取样本，并经过受控的退化处理以模拟恶劣天气条件而构建。结合使用配备高分辨率可见光和热成像相机的DJI M30T无人机捕获的真实数据，AWMM-100k包含了超过187,699张图像，涵盖雨、雾和雪等天气，每种天气条件又分为重度、中度和轻度三个强度等级。该数据集支持在挑战性天气条件下的多模态图像融合研究，同时也适用于去雾、去雨和去雪等图像恢复任务。作者非常感谢原始数据集的贡献。此外，作者认为该数据集显著扩展了多模态图像处理和计算机视觉研究的范围，推动了在恶劣条件下图像融合和恢复任务的进展。

在这里插入图片描述

EMS数据集

发表团队：武汉大学-JiaYi Ma团队：Xunpeng Yi

参考论文：Text-IF: Leveraging Semantic Text Guidance for Degradation-Aware and Interactive Image Fusion

下载链接：https://github.com/XunpengYi/Text-IF；EMS数据集：EMS Dataset: Enhanced Multi-Spectral Various Scenarios for Degradation-Aware Image Fusion

EMS（Enhanced Multi-Spectral Various Scenarios）是一个专为退化感知图像融合设计的大规模多模态基准数据集，由武汉大学研究团队提出。该数据集整合并扩展了 MFNet、RoadScene、FLIR_aligned 和 LLVIP 四个已有多光谱图像数据集，涵盖多种真实交通与监控场景。EMS 数据集包含两个子集：EMS-Lite 提供了轻量级的多模态图像对，模拟了如低光、过曝、红外低对比度和噪声等常见退化；EMS-Full 则更具挑战性，加入了雨、雾、模糊、条纹噪声等多种复合退化因素。总计包含数万张红外-可见光图像对，并附带对应的高质量图像和自然语言提示信息，用于支持多模态感知与退化条件下的图像融合研究。该数据集已在 GitHub 平台开源，为研究者提供了丰富的训练资源和标准化评估基准。

在这里插入图片描述

INO数据集

发表团队：INO（ The largest center of expertise in optics and photonics in Canada ）

参考博客：https://www.ino.ca/en/technologies/video-analytics-dataset/

下载链接：https://www.ino.ca/en/technologies/video-analytics-dataset/videos/

INO（加拿大国家光学研究所）发布的 Video Analytics Dataset 是一个专为多模态视频分析任务设计的高质量数据集，涵盖同步采集的 RGB 与热红外（LWIR）图像序列，适用于目标检测、图像融合与行为识别等研究。数据集包含多个真实场景的视频序列，如街道、停车场、建筑出入口和低光环境，具备良好的时间同步和像素级对齐特性，图像分辨率多样，帧率统一为 10fps，部分视频还包含雪天等恶劣天气条件。该数据集免费开放下载，为多光谱视觉算法的开发与验证提供了丰富且真实的测试资源。

在这里插入图片描述

M3SVD数据集

发表团队：武汉大学-Jiayi Ma团队：Linfeng-Tang

下载链接：https://github.com/Linfeng-Tang/M2VD

参考论文：VideoFusion: A Spatio-Temporal Collaborative Network for Mutli-modal Video Fusion and Restoration

M3SVD（Multi-modal Multi-scene Video Dataset）是由武汉大学等单位构建的首个大规模红外-可见光视频对齐数据集，专为多模态视频融合与恢复任务设计。该数据集包含 220 对时序同步、空间配准的红外与可见光视频对，共计 153,797 帧图像，涵盖公园、湖边、商街、十字路口等 100 个典型日夜场景，并特意设计了伪装、遮挡、低光照、过曝等复杂挑战场景。图像采集设备包括 640×480 分辨率的红外非制冷探测器和 1920×1080 的可见光 CMOS 摄像头，帧率统一为 30 FPS，通过标定与单应矩阵估计实现精确配准。与以往静态图像数据集不同，M3SVD 不仅提供帧间一致性与时间上下文，还支持降质输入（如红外条纹噪声与可见光模糊）下的视频融合研究，极大拓展了红外-可见光融合在真实动态场景中的研究边界。

在这里插入图片描述