【综述研读】深度学习多模态图像语义分割前沿进展

最新推荐文章于 2025-03-26 08:00:00 发布

原创

最新推荐文章于 2025-03-26 08:00:00 发布

· 2.4k 阅读

24 ·

版权

文章标签：

#深度学习 #人工智能

原文链接：深度学习多模态图像语义分割前沿进展

摘要

图像语义分割旨在将视觉场景分解为不同的语义类别实体，实现对图像中每一个像素的类别预测。多模态图像语义分割通过联合利用不同模态图像（即通过基于不同成像机理的传感器获取的图像）间的互补特性，能够全面且准确地实现复杂场景信息的学习与推理。目前基于深度学习的多模态图像语义分割前沿成果较多，但缺少系统且全面的调研与分析。本文首先总结并分析了目前主流的基于深度学习的可见光—热红外（red-green-bluethermal,RGB-T）图像语义分割算法和可见光—深度（red-green-blue-depth,RGB-D）图像语义分割算法。依据算法侧重点不同，将基于深度学习的RGB-T图像语义分割算法划分为基于图像特征增强的方法、基于多模态图像特征融合的方法和基于多层级图像特征交互的方法；依据算法对深度信息的利用方式，将基于深度学习的RGB-D图像语义分割算法划分为基于深度信息提取的方法和基于深度信息引导的方法。然后，介绍了多模态图像语义分割算法常用的客观评测指标以及数据集，并在常用数据集上对上述算法进行对比。对于RGB-T图像语义分割，在MFNet(multi-spectral fusion network)数据集上，GMNet(graded-feature multilabel-learning network)和MFFENet(multiscale feature fusion and enhancement network)分别取得了最优的类平均交并比（mean intersection-over-union per class,mIoU）(57.3%)和类平均精度（mean accuracy per class,mAcc）(74.3%)值。在PST900(PENN subterranean thermal 900)数据集上，GMNet仍然取得了最优的mIoU(84.12%)值，而EGFNet取得了最优的mAcc(94.02%)值。对于RGB-D图像语义分割，在NYUD v2(New York University depth dataset v2)数据集上，GLPNet(global-local propagation network)的mIoU和mAcc分别达到了54.6%和66.6%，取得最优性能。而在SUN-RGBD(scene understanding-RGB-D)数据集上，Zig-Zag的mIoU为51.8%,GLPNet的mAcc为63.3%，均为最优性能。最后，本文还指出了多模态图像语义分割领域未来可能的发展方向。

前言

现有的基于深度学习的图像语义分割工作大多利用可见光（red-green-blue，RGB）图像实现场景内容感知，可见光相机对于场景光照变化的鲁棒性较差，且缺乏对烟、雾、霾、雨、雪的穿透功能。受限于其成像机理，可见光相机难以在不良光照条件以及恶劣天气情况下捕获足够有效的场景信息。此外，可见光相机还难以提供场景相关的空间结构信息以及三维布局信息，无法应对具有目标外观相似、场景区域多且变化大等特点的复杂场景。

热红外成像仪以及深度相机等图像传感器对比RGB图像虽然缺乏一定的颜色、纹理登细节信息，但是可以提供其他的更加精确的目标轮廓信息以及语义信息。通过联合利用不同模态图像间的互补特性，有助于更为全面、准确地实现场景信息的学习与推理。