近年来,多模态语义分割与少样本学习的技术融合正在计算机视觉领域掀起新的研究浪潮。随着自动驾驶、机器人导航和增强现实等场景对精细化场景理解的迫切需求,如何在复杂环境中高效整合异构数据、突破数据稀缺瓶颈,成为推动语义分割技术革新的核心命题。
当前研究聚焦两大前沿趋势:其一,多模态数据的差异化建模与高效融合。RGB-D等异构数据蕴含丰富的颜色信息与空间结构,但传统方法往往忽视模态间的本质差异,导致冗余计算与信息损失。研究者通过异构双分支架构、动态特征交互等策略,在保持模态独立性的同时实现互补增强,显著提升复杂场景下的分割精度。其二,少样本学习与预训练模型的深度耦合。面对标注数据匮乏的挑战,基于DINOv2、SAM等视觉基模型的蒸馏技术崭露头角,通过四维相关性挖掘、跨模型知识迁移等手段,在极低参数量下实现高性能分割。这类方法突破传统原型匹配的局限,将全局语义感知与局部细节捕捉相结合,为小样本场景开辟轻量化解决方案。
未来,该领域将面临模型可解释性增强、多模态实时推理优化、开放词汇分割等挑战。我这边也已经帮同学们整理好了9篇语义分割方向上的一些前沿文章,不想多花时间找资料的可以直接拿。
对资料感兴趣的可以 [丝 xin] 我~~
【论文1】《HDBFormer: Efficient RGB-D Semantic Segmentation with A Heterogeneous Dual-Branch Framework》
在这里插入图片描述
方法介绍
-
异构双分支框架HDBFormer:针对RGB和深度图像模态差异,分别设计不同处理方式。RGB图像采用双流框架,利用Swin Transformer提取深层特征,简单卷积提取浅层特征,再融合得到多级RGB特征;深度图像则用轻量级的LDFormer,通过深度可分离卷积和下采样块实现特征提取,减少参数和计算复杂度。
-
模态信息交互模块(MIIM):融合RGB和深度图像信息,结合Transformer和大核卷积。MIIM包含全局融合注意力(GFA)模块和局部融合注意力(LFA)模块,分别负责融合全局和局部信息。在融合过程中,将输入特征分为主要和次要特征,根据模态差异采用不同融合策略。
-
解码器模块:上采样编码器输出的特征并调整通道数,最终生成分割结果。将RGB图像基础编码器的深层特征和其他特征上采样到相同尺寸后拼接,再通过1×1卷积调整通道数以匹配预测类别数。
在这里插入图片描述
创新点
-
创新的异构双分支框架:提出新颖的异构双分支RGB-D语义分割框架,根据不同模态的特性分别设计处理方式,深度图像采用轻量级LDFormer提取特征,减少参数和计算量,同时保持模型表达能力。
-
高效的模态信息交互模块MIIM:引入MIIM,结合Transformer和大核卷积,采用分级特征处理防止信息过载,针对RGB和深度图像特性设计融合策略,使融合更高效。
-
优秀的实验性能:在NYUDepthv2和SUN-RGBD数据集上,HDBFormer达到最优性能,验证其高效性和优越性。
在这里插入图片描述
【论文2】《DINOv2-powered Few-Shot Semantic Segmentation: A Unified Framework via Cross-Model Distillation and 4D Correlation Mining》
在这里插入图片描述
方法介绍
-
统一框架FS-DINO:构建一个包含DINOv2编码器和轻量级分割器的统一小样本语义分割模型,分割器包含瓶颈适配器、元视觉提示生成器和掩码解码器。通过瓶颈适配器对DINOv2的第三层特征进行特征对齐,将其转换为与SAM编码器输出特征分布相似的形式,并通过适配器捕获全局上下文和细化局部细节。
-
基于MVPG的提示生成:MVPG直接生成视觉提示,包含语义感知的视觉提示和基于支持-查询余弦相似性的密集提示,自动捕捉支持-查询关系,无需人工标注提示。
-
4D相关性挖掘:计算支持特征和查询特征之间的4D密集相关性,利用矩阵乘法和降维操作进行高效训练,增强模型对支持和查询图像之间复杂关系的建模能力。
-
模型训练策略:训练分为嵌入蒸馏和掩码解码训练两个阶段,先训练适配器对齐特征分布,再以元学习方式训练整个分割器。
在这里插入图片描述
创新点
-
创新的统一架构:提出一个同时集成DINOv2和SAM知识的紧凑型编码器-解码器模型,仅需DINOv2编码器和轻量级分割器,显著降低模型尺寸和计算开销,兼具高效率和优越性能。
-
有效的知识蒸馏方法:开发粗到细的蒸馏过程,仅用1M的轻量级适配器就能整合SAM知识,通过调整训练图像分辨率,使适配器逐步适应SAM特征分布,实现高效知识传递。
-
强大的MVPG与4D相关性挖掘:MVPG提供全面的元视觉提示,最大化掩码解码器能力,同时4D相关性挖掘增强模型性能,使模型更好捕捉支持和查询图像间复杂关系,提升分割精度。
-
卓越的实验性能:在多个数据集上,FS-DINO在不同小样本设置中均达到最优性能,证明其优越性。