IndoorMS:首个多光谱室内场景理解语义分割数据集

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【顶会/顶刊】投稿交流群

添加微信号:CVer2233,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

图片

0 导读

本论文的第一作者朱钦峰是西交利物浦大学在读博士生,其导师为范磊副教授。他的主要研究方向为语义分割、多模态信息融合、3D视觉和数据增强。

主页:https://zhuqinfeng1999.github.io/

本文是对论文IndoorMS: A Multispectral Dataset for Semantic Segmentation in Indoor Scene Understanding的解读。 

室内场景理解是计算机视觉中的关键任务,传统上依赖RGB数据进行深度学习驱动的语义分割,以实现像素级别的场景理解。然而,室内环境中的多光谱信息却鲜少被利用,这种信息能够提供超越可见光谱的宝贵数据。为填补这一空白,我们推出了IndoorMS,一个专为室内场景语义分割设计的多光谱数据集。该数据集使用多光谱传感器在17座建筑的多样化室内环境中采集图像,涵盖会议室、大厅、休息室、办公室、走廊和教室等场景。IndoorMS提供了19个精细标注的语义类别,为室内场景分割的稳健评估奠定了基础。

我们使用多种领先的语义分割框架进行了基准实验,并对它们的性能进行了深入分析。结果显示,最佳模型组合——ConvNeXt-s与UperNet——取得了82.38的mF1得分和72.90的mIoU得分。尽管取得了这些令人鼓舞的结果,IndoorMS对分割网络的挑战依然存在,如类别分布不平衡以及RGB与多光谱数据之间的领域差异。这项工作标志着首次通过专用数据集支持多光谱室内场景理解的努力,为该领域的研究开辟了新机遇。我们还提出了未来研究的潜在方向。数据集目前已在github开源。

论文标题:IndoorMS: A Multispectral Dataset for Semantic Segmentation in Indoor Scene Understanding

原文链接:

https://doi.org/10.1109/JSEN.2025.3559348

项目主页:

https://zhuqinfeng1999.github.io/IndoorMS/

下载地址:

https://github.com/zhuqinfeng1999/IndoorMS

单位:西交利物浦大学、利物浦大学

01 背景介绍:多光谱数据在室内场景中的潜力

室内场景理解在智能自动化系统中至关重要,尤其是在室内自主车辆和无人机等无人系统中,它们需要准确识别室内物体和区域以进行导航和路径规划。传统的语义分割方法依赖RGB数据,但多光谱数据能够提供更丰富的特征,特别是在遥感、医学成像等领域已展现出巨大价值。然而,在室内场景理解中,多光谱数据的应用仍相对较少。 

IndoorMS数据集的发布填补了这一空白,首次为研究者提供了在室内环境中利用多光谱信息进行语义分割的机会。通过捕捉可见光和红外波段的信息,IndoorMS能够提供比RGB数据更丰富的特征,有望提升语义分割的精度和鲁棒性。

02 数据集介绍:IndoorMS的构建与标注


图1. IndoorMS数据集示例图像,包括休息室、走廊和教室场

IndoorMS数据集包含从17座不同建筑物中采集的227张多光谱图像,涵盖多种室内场景,如会议室、走廊、教室等。数据采集时考虑了不同时间和天气条件下的光照变化,确保了数据的多样性。数据集提供了19个精细的语义类别,包括墙壁、天花板、地板、门窗等,为复杂的室内场景理解任务提供了挑战。

数据采集:使用Silios CMS4多光谱传感器,采集9个波段的图像,覆盖554nm至838nm的波段以及一个灰度通道。数据采集覆盖了多种光照条件和视角,确保了场景的多样性。

数据标注:采用全手动标注方式,使用Label Studio工具。为了便于标注,多光谱数据通过伪彩色转换技术转化为RGB格式,同时提供高分辨率彩色图像作为参考,确保标注的准确性。

数据集划分:数据集按7:1:2的比例划分为训练集(158张)、验证集(22张)和测试集(47张),采用随机划分策略以保持场景多样性。 

图2. 多光谱数据伪彩色转换示意图

图3. 标注过程示意图,包括伪彩色图像、标注结果和高分辨率参考图像 

03 实验 

为评估IndoorMS数据集在语义分割任务中的表现,我们使用多种代表性的语义分割框架进行了基准测试,包括ConvNeXt、ResNet、Swin Transformer等编码器与UperNet、BiSeNet、DeepLabV3+等解码器的组合。

实验设置:所有模型在两个24GB NVIDIA 4090D GPU上训练,输入图像调整为512×512分辨率,批量大小为16。训练采用交叉熵损失函数,并进行了广泛的超参数调优。

评价指标:使用IoU、mIoU和mF1作为评价指标,进行了三次重复训练以确保结果的稳健性。

结果:在从头训练的情况下,所有方法的分割性能有限,最佳组合ConvNeXt-s与UperNet的mIoU仅为51.61。采用ImageNet预训练后,性能显著提升,ConvNeXt-s与UperNet的mIoU达到72.90,mF1达到82.38。然而,某些类别如Clutter、Column、Railing和Signage的分割性能仍较低,反映了数据集中的挑战,如类别不平衡和罕见类别的稀缺。

多光谱 vs. 伪彩色:与伪彩色图像(模拟RGB数据)相比,多光谱数据在语义分割中表现出明显的性能优势,证明了多光谱信息的价值。 

04 结论

IndoorMS数据集的发布为多光谱室内场景理解研究开辟了新天地。实验结果显示,尽管多光谱数据在语义分割中展现出潜力,但类别不平衡、领域差异和数据集规模有限等挑战依然存在。未来的研究可以探索以下方向:

1. 训练与数据增强策略:开发更有效的策略以应对类别不平衡,特别是优化罕见类别的性能。

2. 预训练策略:设计基于ImageNet的预训练策略,以缓解RGB与多光谱数据之间的领域差异。

3. 多光谱预训练数据集:构建大规模多光谱预训练数据集,为多光谱分析任务提供强大的预训练模型。

4. 专用神经网络:设计专门针对多光谱数据的神经网络,以更有效地提取通道特定特征。

5. 小样本学习:开发高效的神经网络,充分利用有限数据中的特征。

6. 目标检测与实例分割:收集多光谱数据集用于室内目标检测和实例分割,为室内机器人提供更全面的感知能力。

7. 真实与合成数据集成:探索将真实和合成多光谱数据相结合的方法,以增强模型的泛化能力。

随着多光谱技术的不断进步,我们期待在室内机器人、增强现实等领域看到更多创新应用。

参考文献:

[1] Zhu, Qinfeng, Jingjing Xiao, and Lei Fan. "IndoorMS: A Multispectral Dataset for Semantic Segmentation in Indoor Scene Understanding." IEEE Sensors Journal (2025).

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

CVPR 2025 论文和代码下载

在CVer公众号后台回复:CVPR2025,即可下载CVPR 2025论文和代码开源的论文合集

ECCV 2024 论文和代码下载

在CVer公众号后台回复:ECCV2024,即可下载ECCV 2024论文和代码开源的论文合集

CV垂直方向和论文投稿交流群成立

扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者论文投稿+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer2233,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集上万人!

▲扫码加入星球学习

▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
“华为杯”第十八届中国研究生数学建模竞赛是一项全国性赛事,致力于提升研究生的数学建模与创新实践能力。数学建模是将实际问题转化为数学模型,并运用数学方法求解以解决实际问题的科学方法。该竞赛为参赛者提供了展示学术水平和团队协作精神的平台。 论文模板通常包含以下内容:封面需涵盖比赛名称、学校参赛队号、队员姓名以及“华为杯”和中国研究生创新实践系列大赛的标志;摘要部分应简洁明了地概括研究工作,包括研究问题、方法、主要结果和结论,使读者无需阅读全文即可了解核心内容;目录则列出各章节标题,便于读者快速查找;问题重述部分需详细重新阐述比赛中的实际问题,涵盖背景、原因及重要性;问题分析部分要深入探讨每个问题的内在联系与解决思路,分析各个子问题的特点、难点及可能的解决方案;模型假设与符号说明部分需列出合理假设以简化问题,并清晰定义模型中的变量和符号;模型建立与求解部分是核心,详细阐述将实际问题转化为数学模型的过程,以及采用的数学工具和求解步骤;结果验证与讨论部分展示模型求解结果,评估模型的有效性和局限性,并对结果进行解释;结论部分总结研究工作,强调模型的意义和对未来研究的建议;参考文献部分列出引用文献,遵循规范格式。 在准备竞赛论文时,参赛者需注重逻辑清晰、论述严谨,确保模型科学实用。良好的团队协作和时间管理也是成功的关键。通过竞赛,研究生们不仅锻炼了数学应用能力,还提升了团队合作、问题解决和科研写作能力。
遗传算法优化BP神经网络(GABP)是一种结合了遗传算法(GA)和BP神经网络的优化预测方法。BP神经网络是一种多层前馈神经网络,常用于模式识别和预测问题,但其容易陷入局部最优。而遗传算法是一种模拟自然选择和遗传机制的全局优化方法,能够有效避免局部最优 。GABP算法通过遗传算法优化BP神经网络的权重和阈值,从而提高网络的学习效率和预测精度 。 种群:遗传算法中个体的集合,每个个体代表一种可能的解决方案。 编码:将解决方案转化为适合遗传操作的形式,如二进制编码。 适应度函数:用于评估个体解的质量,通常与目标函数相反,目标函数值越小,适应度越高。 选择:根据适应度保留优秀个体,常见方法有轮盘赌选择、锦标赛选择等。 交叉:两个父代个体交换部分基因生成子代。 变异:随机改变个体的部分基因,增加种群多样性。 终止条件:当迭代次数或适应度阈值达到预设值时停止算法 。 初始化种群:随机生成一组神经网络参数(权重和阈值)作为初始种群 。 计算适应度:使用神经网络模型进行训练和预测,根据预测误差计算适应度 。 选择操作:根据适应度选择优秀个体 。 交叉操作:对选择的个体进行交叉,生成新的子代个体 。 变异操作:对子代进行随机变异 。 替换操作:用新生成的子代替换掉一部分旧种群 。 重复步骤2-6,直到满足终止条件 。 适应度函数通常以预测误差为基础,误差越小,适应度越高。常用的误差指标包括均方根误差(RMSE)或平均绝对误差(MAE)等 。 GABP代码中包含了适应度函数的定义、种群的生成、选择、交叉、变异以及训练过程。代码注释详尽,便于理解每个步骤的作用 。 GABP算法适用于多种领域,如时间序列预测、经济预测、工程问题的优化等。它特别适合解决多峰优化问题,能够有效提高预测的准确性和稳定性 。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值