CVPR 2025 | Mamba和局部自注意力的首次碰撞:一种性能强大的混合视觉架构,代码已开源!...

关注公众号,发现CV技术之美

本篇分享 CVPR 2025 论文,俞益洲教授团队提出新型语义分割框架SegMAN,在三大语义分割基准(ADE20K,Cityscapes, COCO-Stuff-164k)测试中展现出了卓越的性能。代码已开源!

3e78319f157d01f441ba9dff81cd65a2.png
  • 论文连接:https://arxiv.org/pdf/2412.11890(预印版)

  • 代码连接:https://github.com/yunxiangfu2001/SegMAN


摘要

香港大学计算和数据科学学院俞益洲教授(https://i.cs.hku.hk/~yzyu/index.html)及其研究团队提出新型语义分割框架SegMAN,包含全球首个融合动态状态空间模型(Mamba)局部自注意力的通用视觉主干网络(SegMAN Encoder)基于Mamba的多尺度解码器(SegMAN Decoder)

主干网络创新

SegMAN Encoder首次在视觉主干网络中实现Mamba全局建模能力与局部自注意力机制的融合,该模型通过线性复杂度Mamba捕获长程依赖滑动窗口局部自注意力保持像素级细节精度,在ImageNet-1k 上显著超越现有的Mamba与Transformer 模型。

解码器创新

SegMAN Decoder核心为基于Mamba的多尺度信息增强模块(MMSCopE),该模块采用卷积来提取多分辨率区域的语义信息,然后通过空间扫描机制实现跨尺度的全局语义传播

整体架构

结合了主干网络与解码器,提出一种新的语义分割模型SegMAN,在三大语义分割基准(ADE20K,Cityscapes, COCO-Stuff-164k)测试中展现出了卓越的性能。


动机

在计算机视觉领域,语义分割任务要求为图像中的每个像素赋予类别标签,是自动驾驶、医学影像分析、智能安防等应用的核心技术。然而,这一任务面临三大关键挑战:全局上下文建模(理解整体场景)、局部细节编码(精确识别边界与细微特征)以及多尺度特征提取(适应不同尺寸的目标)。

现有方法往往顾此失彼---全局建模能力强的模型可能丢失细节,而关注细节的模型又难以覆盖全局。针对这一瓶颈, SegMAN创新性地构建了编码-解码协同框架,高效的整合全局上下文建模、局部细节表征与多尺度动态融合三大核心机制。


方法

SegMAN Encoder构建了4阶段金字塔结构,创新性地将邻域注意力(Natten)与二维选择性动态状态空间模型扫描(SS2D)融合为一个即插即用的LASS混合模块。该模块通过级联式架构实现:Natten采用滑动窗口机制捕捉不同邻域内的细粒度特征,SS2D通过四向扫描路径建模全局长程依赖,二者通过残差连接实现局部-全局特征的动态融合。LASS模块突破传统Transformer的二次方复杂度限制,通过Natten的局部窗口约束与SS2D的状态空间压缩策略,在保持线性计算复杂度的同时,实现多尺度特征的协同优化。

SegMAN Decoder设计基于状态空间模型的MMSCopE模块,该模块可以无缝插入到任何金字塔网络,并且通过像素重组技术将原始特征()、 降采样特征()和 降采样特征()沿通道维度拼接提取多分辨率区域的语义信息,随后利用SS2D的单次空间扫描机制实现跨尺度的全局语义传播,然后将多尺度特征注入编码器各阶段输出(),最终经双层MLP生成像素级预测。

SegMAN通过编码-解码协同优化,在全局建模、局部感知与多尺度融合三个关键维度实现突破,为实时高精度语义分割任务提供了新的技术路径。 SegMAN的整体架构如图1所示:

ba25a57b67b7a32b81a7b1742595c88e.png
图1 SegMAN架构: (a) SegMAN Encoder;(b)由 滑动窗口局部注意力(Natten)和动态状态空间模型(SS2D)组成的 LASS,模块通过线性复杂度优势协同建模全局上下文与局部细节特征;(c)SegMAN Decoder;(d)基于Mamba的多尺度信息增强模块 MMSCopE

实验结果

图像分类性能

SegMAN Encoder在图像分类基准数据集 ImageNet-1K 上表现出了卓越的性能,相较于现有方法,在公平比较里展现出更高的准确率。如图2和表1所示,SegMAN Encoder 在不同尺寸的模型上都具有更高的准确率。SegMAN-B Encoder(45M)以大约一半的参数量就超越了VMamba-B, ConvNeXt-B, InterImage-B等模型的准确率。

ac1920f59e3ca4b01bad06549ebdaab6.png 图2 不同模型在ImageNet-1K上的上的准确率对比
图2 不同模型在ImageNet-1K上的上的准确率对比
表1 不同模型在ImageNet-1k 上的准确率对比
表1 不同模型在ImageNet-1k 上的准确率对比

语义分割性能

6af2004a707682b2a03eea1c3bf885de.png
表2 不同模型在ADE20K,Cityscapes, COCO-Stuff-164K 上的语义分割性能对比

计算效率

在Cityscapes数据集(2048×1024分辨率)的推理速度测试中,使用NVIDIA L40S GPU并以批次大小2运行128个步骤,SegMAN-T的平均帧率(FPS)显著优于对比模型。如表3所示,SegMAN-T在FPS约为EDAFormer-T三倍的同时,mIoU指标提升1.6%,体现了模型在计算效率与语义分割性能之间的优越tradeoff

表3 不同模型在Cityscapes上的速度对比
表3 不同模型在Cityscapes上的速度对比

通用性实验

如表4所示,当将SegMAN Encoder与Decoder模块集成到现有最新方法中时,二者均能有效提升模型性能。

表4 SegMAN Encoder 与 Decoder 集成到现有方法中时的性能
表4 SegMAN Encoder 与 Decoder 集成到现有方法中时的性能

消融实验

研究团队在ImageNet-1K与ADE20K数据集上系统性验证编码器架构设计。核心模块LASS采用Natten与SS2D的级联结构,通过SS2D残差连接实现局部-全局特征融合,并在第四阶段以全局注意力替代SS2D以增强高层语义建模。架构验证通过三组消融实验展开:

  1. 混合器架构对比:将LASS替换为MaxViT、ACMix等主流结构时,LASS在分类与分割任务中均表现出最优性能。其优势源于Natten对局部细节的精准捕捉与SS2D对全局关联的高效建模形成的双向互补效应。

  2. 组件连接方式分析:实验表明,SS2D与Natten的级联结构配合残差连接具备必要性。若改用并行架构或移除残差连接,分类准确率与分割mIoU分别下降0.9%和1.8%。

  3. 核心算子有效性:替换SS2D为空间缩减注意力(SRA)或线性注意力时,性能出现0.3%-1.8%的显著下滑;将Natten替换为卷积或移位窗口注意力则导致0.5%-1.8%的精度损失,验证原始组件组合的不可替代性。

详细数据支持如表5所示。

表5 SegMAN Encoder 消融实验
表5 SegMAN Encoder 消融实验

可视化

图3、4、5分别对比了ADE20K、Cityscapes及COCO-Stuff-164K数据集上不同方法的分割效果。如图所示,相较于现有方法,SegMAN生成的分割边界更精准,且能细致捕捉场景中的复杂细节(如微小物体等),在结果完整性与真实感上实现显著提升

图3 不同方法在ADE20K上的分割效果
图3 不同方法在ADE20K上的分割效果
图4 不同方法在CityScapes上的分割效果
图4 不同方法在CityScapes上的分割效果
图5 不同方法在COCO-Stuff-164k上的分割效果
图5 不同方法在COCO-Stuff-164k上的分割效果

最新 AI 进展报道
请联系:amos@52cv.net

f93f63117d67ae1dc71ea31ce140e327.jpeg

END

欢迎加入「语义分割交流群👇备注:seg

6ec9bb46c1a97fb67eed15f0d11b2d05.png

### SegMAN中的LASS模块功能与实现 SegMAN一种先进的分割模型,其中的线性复杂度Mamba模块滑动窗口局部自注意力机制(Local Attention with Sliding Windows, LASS)是其核心组成部分之一。LASS模块的主要目标是在保持计算效率的同时提升特征表示能力。 #### 1. 局部自注意力机制的作用 LASS模块通过引入滑动窗口的方式,在图像的不同区域上应用局部自注意力操作。这种方法能够显著降低全局自注意力带来的高计算开销,同时保留对局部上下文的有效建模[^1]。具体来说,LASS将输入特征图划分为多个不重叠的小窗口,并在每个窗口内部执行标准的自注意力运算。这种设计使得模型能够在较小范围内捕捉像素之间的依赖关系,从而提高语义分割任务的表现。 #### 2. 滑动窗口的设计原理 为了进一步增强跨窗口边界的交互效果,LASS采用了滑动策略来扩展感受野范围。这意味着相邻窗口之间存在一定的交集部分,允许信息在这两个区域间流动。这样的处理方式不仅有助于缓解因固定划分造成的边界效应问题,还增强了整体结构的一致性连贯性。 #### 3. 计算优化措施 尽管加入了滑动特性,但由于每次仅需关注有限数量的位置组合,因此总体时间复杂度仍然维持在线性级别以内。这得益于精心设计的数据访问模式以及高效的矩阵乘法算法支持下的快速实现方案。 以下是基于PyTorch框架的一个简化版伪代码示例展示如何构建基本形式下的LASS层: ```python import torch.nn as nn import torch class LocalAttentionWithSlidingWindows(nn.Module): def __init__(self, dim, window_size=7): super(LocalAttentionWithSlidingWindows, self).__init__() self.window_size = window_size self.attention = nn.MultiheadAttention(dim, num_heads=8) def forward(self, x): B, C, H, W = x.shape # Unfold the feature map into patches (sliding windows) unfolded_x = x.unfold(2, self.window_size, self.window_size//2).unfold(3, self.window_size, self.window_size//2) # Reshape to batch size * number of windows, channels, height*width per window reshaped_x = unfolded_x.contiguous().view(-1, C, self.window_size*self.window_size) # Transpose dimensions for multi-head attention input format query_key_value = reshaped_x.permute(0, 2, 1) output, _ = self.attention(query_key_value, query_key_value, query_key_value) # Reverse transformations back to original shape restored_output = output.view(B, -1, C, H, W).sum(dim=1)/output.size(1)**0.5 return restored_output ``` 上述代码片段定义了一个简单的`LocalAttentionWithSlidingWindows`类,它实现了基础版本的滑动窗口局部自注意力建构逻辑。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值