点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
添加微信号:CVer2233,小助手会拉你进群!
扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!
0 导读
本论文的第一作者朱钦峰是西交利物浦大学在读博士生,其导师为范磊副教授。他的主要研究方向为语义分割、多模态信息融合、3D视觉和数据增强。
主页:https://zhuqinfeng1999.github.io/
本文是对论文IndoorMS: A Multispectral Dataset for Semantic Segmentation in Indoor Scene Understanding的解读。
室内场景理解是计算机视觉中的关键任务,传统上依赖RGB数据进行深度学习驱动的语义分割,以实现像素级别的场景理解。然而,室内环境中的多光谱信息却鲜少被利用,这种信息能够提供超越可见光谱的宝贵数据。为填补这一空白,我们推出了IndoorMS,一个专为室内场景语义分割设计的多光谱数据集。该数据集使用多光谱传感器在17座建筑的多样化室内环境中采集图像,涵盖会议室、大厅、休息室、办公室、走廊和教室等场景。IndoorMS提供了19个精细标注的语义类别,为室内场景分割的稳健评估奠定了基础。
我们使用多种领先的语义分割框架进行了基准实验,并对它们的性能进行了深入分析。结果显示,最佳模型组合——ConvNeXt-s与UperNet——取得了82.38的mF1得分和72.90的mIoU得分。尽管取得了这些令人鼓舞的结果,IndoorMS对分割网络的挑战依然存在,如类别分布不平衡以及RGB与多光谱数据之间的领域差异。这项工作标志着首次通过专用数据集支持多光谱室内场景理解的努力,为该领域的研究开辟了新机遇。我们还提出了未来研究的潜在方向。数据集目前已在github开源。
论文标题:IndoorMS: A Multispectral Dataset for Semantic Segmentation in Indoor Scene Understanding
原文链接:
https://doi.org/10.1109/JSEN.2025.3559348
项目主页:
https://zhuqinfeng1999.github.io/IndoorMS/
下载地址:
https://github.com/zhuqinfeng1999/IndoorMS
单位:西交利物浦大学、利物浦大学
01 背景介绍:多光谱数据在室内场景中的潜力
室内场景理解在智能自动化系统中至关重要,尤其是在室内自主车辆和无人机等无人系统中,它们需要准确识别室内物体和区域以进行导航和路径规划。传统的语义分割方法依赖RGB数据,但多光谱数据能够提供更丰富的特征,特别是在遥感、医学成像等领域已展现出巨大价值。然而,在室内场景理解中,多光谱数据的应用仍相对较少。
IndoorMS数据集的发布填补了这一空白,首次为研究者提供了在室内环境中利用多光谱信息进行语义分割的机会。通过捕捉可见光和红外波段的信息,IndoorMS能够提供比RGB数据更丰富的特征,有望提升语义分割的精度和鲁棒性。
02 数据集介绍:IndoorMS的构建与标注
图1. IndoorMS数据集示例图像,包括休息室、走廊和教室场
IndoorMS数据集包含从17座不同建筑物中采集的227张多光谱图像,涵盖多种室内场景,如会议室、走廊、教室等。数据采集时考虑了不同时间和天气条件下的光照变化,确保了数据的多样性。数据集提供了19个精细的语义类别,包括墙壁、天花板、地板、门窗等,为复杂的室内场景理解任务提供了挑战。
数据采集:使用Silios CMS4多光谱传感器,采集9个波段的图像,覆盖554nm至838nm的波段以及一个灰度通道。数据采集覆盖了多种光照条件和视角,确保了场景的多样性。
数据标注:采用全手动标注方式,使用Label Studio工具。为了便于标注,多光谱数据通过伪彩色转换技术转化为RGB格式,同时提供高分辨率彩色图像作为参考,确保标注的准确性。
数据集划分:数据集按7:1:2的比例划分为训练集(158张)、验证集(22张)和测试集(47张),采用随机划分策略以保持场景多样性。
图2. 多光谱数据伪彩色转换示意图
图3. 标注过程示意图,包括伪彩色图像、标注结果和高分辨率参考图像
03 实验
为评估IndoorMS数据集在语义分割任务中的表现,我们使用多种代表性的语义分割框架进行了基准测试,包括ConvNeXt、ResNet、Swin Transformer等编码器与UperNet、BiSeNet、DeepLabV3+等解码器的组合。
实验设置:所有模型在两个24GB NVIDIA 4090D GPU上训练,输入图像调整为512×512分辨率,批量大小为16。训练采用交叉熵损失函数,并进行了广泛的超参数调优。
评价指标:使用IoU、mIoU和mF1作为评价指标,进行了三次重复训练以确保结果的稳健性。
结果:在从头训练的情况下,所有方法的分割性能有限,最佳组合ConvNeXt-s与UperNet的mIoU仅为51.61。采用ImageNet预训练后,性能显著提升,ConvNeXt-s与UperNet的mIoU达到72.90,mF1达到82.38。然而,某些类别如Clutter、Column、Railing和Signage的分割性能仍较低,反映了数据集中的挑战,如类别不平衡和罕见类别的稀缺。
多光谱 vs. 伪彩色:与伪彩色图像(模拟RGB数据)相比,多光谱数据在语义分割中表现出明显的性能优势,证明了多光谱信息的价值。
04 结论
IndoorMS数据集的发布为多光谱室内场景理解研究开辟了新天地。实验结果显示,尽管多光谱数据在语义分割中展现出潜力,但类别不平衡、领域差异和数据集规模有限等挑战依然存在。未来的研究可以探索以下方向:
1. 训练与数据增强策略:开发更有效的策略以应对类别不平衡,特别是优化罕见类别的性能。
2. 预训练策略:设计基于ImageNet的预训练策略,以缓解RGB与多光谱数据之间的领域差异。
3. 多光谱预训练数据集:构建大规模多光谱预训练数据集,为多光谱分析任务提供强大的预训练模型。
4. 专用神经网络:设计专门针对多光谱数据的神经网络,以更有效地提取通道特定特征。
5. 小样本学习:开发高效的神经网络,充分利用有限数据中的特征。
6. 目标检测与实例分割:收集多光谱数据集用于室内目标检测和实例分割,为室内机器人提供更全面的感知能力。
7. 真实与合成数据集成:探索将真实和合成多光谱数据相结合的方法,以增强模型的泛化能力。
随着多光谱技术的不断进步,我们期待在室内机器人、增强现实等领域看到更多创新应用。
参考文献:
[1] Zhu, Qinfeng, Jingjing Xiao, and Lei Fan. "IndoorMS: A Multispectral Dataset for Semantic Segmentation in Indoor Scene Understanding." IEEE Sensors Journal (2025).
何恺明在MIT授课的课件PPT下载
在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!
CVPR 2025 论文和代码下载
在CVer公众号后台回复:CVPR2025,即可下载CVPR 2025论文和代码开源的论文合集
ECCV 2024 论文和代码下载
在CVer公众号后台回复:ECCV2024,即可下载ECCV 2024论文和代码开源的论文合集
CV垂直方向和论文投稿交流群成立
扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者论文投稿+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信号: CVer2233,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集上万人!
▲扫码加入星球学习
▲扫码或加微信号: CVer2233,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集上万人!
▲扫码加入星球学习
▲点击上方卡片,关注CVer公众号 整理不易,请点赞和在看