原文链接:深度学习多模态图像语义分割前沿进展
摘要
图像语义分割旨在将视觉场景分解为不同的语义类别实体,实现对图像中每一个像素的类别预测。多模态图像语义分割通过联合利用不同模态图像(即通过基于不同成像机理的传感器获取的图像)间的互补特性,能够全面且准确地实现复杂场景信息的学习与推理。目前基于深度学习的多模态图像语义分割前沿成果较多,但缺少系统且全面的调研与分析。本文首先总结并分析了目前主流的基于深度学习的可见光—热红外(red-green-bluethermal,RGB-T)图像语义分割算法和可见光—深度(red-green-blue-depth,RGB-D)图像语义分割算法。依据算法侧重点不同,将基于深度学习的RGB-T图像语义分割算法划分为基于图像特征增强的方法、基于多模态图像特征融合的方法和基于多层级图像特征交互的方法;依据算法对深度信息的利用方式,将基于深度学习的RGB-D图像语义分割算法划分为基于深度信息提取的方法和基于深度信息引导的方法。然后,介绍了多模态图像语义分割算法常用的客观评测指标以及数据集,并在常用数据集上对上述算法进行对比。对于RGB-T图像语义分割,在MFNet(multi-spectral fusion network)数据集上,GMNet(graded-feature multilabel-learning network)和MFFENet(multiscale feature fusion and enhancement network)分别取得了最优的类平均交并比(mean intersection-over-union per class,mIoU)(57.3%)和类平均精度(mean accuracy per class,mAcc)(74.3%)值。在PST900(PENN subterranean thermal 900)数据集上,GMNet仍然取得了最优的mIoU(84.12%)值,而EGFNet取得了最优的mAcc(94.02%)值。对于RGB-D图像语义分割,在NYUD v2(New York University depth dataset v2)数据集上,GLPNet(global-local propagation network)的mIoU和mAcc分别达到了54.6%和66.6%,取得最优性能。而在SUN-RGBD(scene understanding-RGB-D)数据集上,Zig-Zag的mIoU为51.8%,GLPNet的mAcc为63.3%,均为最优性能。最后,本文还指出了多模态图像语义分割领域未来可能的发展方向。
前言
现有的基于深度学习的图像语义分割工作大多利用可见光(red-green-blue,RGB)图像实现场景内容感知,可见光相机对于场景光照变化的鲁棒性较差,且缺乏对烟、雾、霾、雨、雪的穿透功能。受限于其成像机理,可见光相机难以在不良光照条件以及恶劣天气情况下捕获足够有效的场景信息。此外,可见光相机还难以提供场景相关的空间结构信息以及三维布局信息,无法应对具有目标外观相似、场景区域多且变化大等特点的复杂场景。
热红外成像仪以及深度相机等图像传感器对比RGB图像虽然缺乏一定的颜色、纹理登细节信息,但是可以提供其他的更加精确的目标轮廓信息以及语义信息。通过联合利用不同模态图像间的互补特性,有助于更为全面、准确地实现场景信息的学习与推理。
1.深度学习RGB-T图像语义分割模型
RGB-T 图像 是结合了 可见光图像 和 热成像图像 的图像数据。热成像图像能够在低光、雾霾、夜间等环境下提供更多的信息,因此可以弥补 RGB 图像在这些条件下的不足。
“编码器—解码器”结构:编码器用于提取图像特征,解码器则用于图像特征恢复以及分割结果预测。基于深度学习的RGB-T图像语义分割的处理过程:
已有的基于深度学习的RGB-T图像语义分割方法可以划分为3类:
- 基于图像特征增强的方法
- 基于多模态图像特征融合的方法
- 基于多层级图像特征交互的方法
1.1基于图像特征增强的方法
基于图像特征增强的方法通常通过注意力机制以及辅助信息嵌入等方式,直接或间接地增强单模态图像特征或多模态图像融合特征。
1.1.1 PSTNet
PSTNet网络:
- 首先利用RGB图像的语义分割置信图作为一种辅助信息,通过将其与输入的RGB图像和热红外图像组合,以增强输入数据中所包含的有效信息。
- 通过预训练分类网络对增强后的输入数据进行特征提取。
根据网络结构图,我们可以把整个流程看作是两个阶段: