【综述研读】深度学习多模态图像语义分割前沿进展

原文链接:深度学习多模态图像语义分割前沿进展

摘要

图像语义分割旨在将视觉场景分解为不同的语义类别实体,实现对图像中每一个像素的类别预测。多模态图像语义分割通过联合利用不同模态图像(即通过基于不同成像机理的传感器获取的图像)间的互补特性,能够全面且准确地实现复杂场景信息的学习与推理。目前基于深度学习的多模态图像语义分割前沿成果较多,但缺少系统且全面的调研与分析。本文首先总结并分析了目前主流的基于深度学习的可见光—热红外(red-green-bluethermal,RGB-T)图像语义分割算法和可见光—深度(red-green-blue-depth,RGB-D)图像语义分割算法。依据算法侧重点不同,将基于深度学习的RGB-T图像语义分割算法划分为基于图像特征增强的方法、基于多模态图像特征融合的方法和基于多层级图像特征交互的方法;依据算法对深度信息的利用方式,将基于深度学习的RGB-D图像语义分割算法划分为基于深度信息提取的方法和基于深度信息引导的方法。然后,介绍了多模态图像语义分割算法常用的客观评测指标以及数据集,并在常用数据集上对上述算法进行对比。对于RGB-T图像语义分割,在MFNet(multi-spectral fusion network)数据集上,GMNet(graded-feature multilabel-learning network)和MFFENet(multiscale feature fusion and enhancement network)分别取得了最优的类平均交并比(mean intersection-over-union per class,mIoU)(57.3%)和类平均精度(mean accuracy per class,mAcc)(74.3%)值。在PST900(PENN subterranean thermal 900)数据集上,GMNet仍然取得了最优的mIoU(84.12%)值,而EGFNet取得了最优的mAcc(94.02%)值。对于RGB-D图像语义分割,在NYUD v2(New York University depth dataset v2)数据集上,GLPNet(global-local propagation network)的mIoU和mAcc分别达到了54.6%和66.6%,取得最优性能。而在SUN-RGBD(scene understanding-RGB-D)数据集上,Zig-Zag的mIoU为51.8%,GLPNet的mAcc为63.3%,均为最优性能。最后,本文还指出了多模态图像语义分割领域未来可能的发展方向。

前言

现有的基于深度学习的图像语义分割工作大多利用可见光(red-green-blue,RGB)图像实现场景内容感知,可见光相机对于场景光照变化的鲁棒性较差,且缺乏对烟、雾、霾、雨、雪的穿透功能。受限于其成像机理,可见光相机难以在不良光照条件以及恶劣天气情况下捕获足够有效的场景信息。此外,可见光相机还难以提供场景相关的空间结构信息以及三维布局信息,无法应对具有目标外观相似、场景区域多且变化大等特点的复杂场景。

热红外成像仪以及深度相机等图像传感器对比RGB图像虽然缺乏一定的颜色、纹理登细节信息,但是可以提供其他的更加精确的目标轮廓信息以及语义信息。通过联合利用不同模态图像间的互补特性,有助于更为全面、准确地实现场景信息的学习与推理。

1.深度学习RGB-T图像语义分割模型

RGB-T 图像 是结合了 可见光图像热成像图像 的图像数据。热成像图像能够在低光、雾霾、夜间等环境下提供更多的信息,因此可以弥补 RGB 图像在这些条件下的不足。

“编码器—解码器”结构:编码器用于提取图像特征,解码器则用于图像特征恢复以及分割结果预测。基于深度学习的RGB-T图像语义分割的处理过程:

已有的基于深度学习的RGB-T图像语义分割方法可以划分为3类:

  • 基于图像特征增强的方法
  • 基于多模态图像特征融合的方法
  • 基于多层级图像特征交互的方法

1.1基于图像特征增强的方法

基于图像特征增强的方法通常通过注意力机制以及辅助信息嵌入等方式,直接或间接地增强单模态图像特征或多模态图像融合特征。

1.1.1 PSTNet

PSTNet网络:

  1. 首先利用RGB图像的语义分割置信图作为一种辅助信息,通过将其与输入的RGB图像和热红外图像组合,以增强输入数据中所包含的有效信息。
  2. 通过预训练分类网络对增强后的输入数据进行特征提取。

 根据网络结构图,我们可以把整个流程看作是两个阶段:

    ### Swin-Transformer在多模态语义分割中的应用 Swin Transformer 结合了卷积神经网络(CNN)和变换器(Transformer)的优点,在处理高分辨率图像时表现出色[^1]。对于多模态语义分割任务,Swin Transformer 的优势在于其能够有效捕捉局部细节的同时保持全局上下文理解能力。 #### 方法概述 为了实现基于 Swin Transformer 的多模态语义分割模型: 1. **输入融合**:接受来自不同传感器的数据作为输入,比如RGB图像、深度图或其他形式的感知数据。这些不同的模态可以在早期阶段进行级联或者并行处理后再聚合。 2. **特征提取**:采用 Swin Transformer 架构逐层抽取各模态下的空间特征表示。由于 Swin Transformer 使用分层结构逐步增大感受野范围,并通过窗口内的自注意机制降低计算成本,这使得它非常适合用于复杂场景下精确的目标识别与分类[^3]。 3. **跨模态交互建模**:引入额外模块促进不同源之间信息交流,例如交叉注意力机制允许一个模态关注另一个模态的关键区域;也可以考虑使用联合嵌入空间映射技术使多种类型的表征更加一致地协同工作。 4. **解码重建**:经过编码后的高层抽象特征需经由上采样路径恢复至原始尺寸,最终输出像素级别的类别预测结果。此过程中可借鉴 U-Net 类型的设计思路,即让低级别细粒度线索指导高级别语义解释完成精细化定位。 5. **损失函数优化**:针对特定应用场景定制合适的评价指标体系,如交并比(IoU),Dice系数等,并据此调整训练策略以获得更好的泛化性能。 #### 参考论文及代码资源 目前已有研究者尝试将 Swin Transformer 应用于多模态分析领域,部分成果已公开发表并开源其实验代码供后续开发者参考学习。具体来说,“Align before Fuse: Vision and Language Representation Learning with Momentum Distillation” 提出了新颖的方法论框架可用于启发如何高效整合视觉与其他感官信号之间的关联关系[^2]。而官方 GitHub 上也提供了 PyTorch 版本的基础实现库 `timm` 和 `mmsegmentation` ,后者特别专注于各种语义分割算法的研究开发,其中就包含了对 Swin Transformer 支持的良好接口封装[^5]。 ```bash git clone https://github.com/open-mmlab/mmsegmentation.git cd mmsegmentation pip install -r requirements/build.txt pip install -v -e . ``` 上述命令可以帮助快速搭建起实验环境,进一步探索基于 Swin Transformer 的多模态语义分割解决方案。
    评论
    添加红包

    请填写红包祝福语或标题

    红包个数最小为10个

    红包金额最低5元

    当前余额3.43前往充值 >
    需支付:10.00
    成就一亿技术人!
    领取后你会自动成为博主和红包主的粉丝 规则
    hope_wisdom
    发出的红包
    实付
    使用余额支付
    点击重新获取
    扫码支付
    钱包余额 0

    抵扣说明:

    1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
    2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

    余额充值