视觉Mamba的多向扫描策略真的有效吗?

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba/扩散/多模态】交流群

添加微信:CVer5555,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

7262ce765cfa9a32326e7b5e92cded47.jpeg

0 导读

本论文的第一作者朱钦峰是西浦和利物浦大学联合培养的一年级在读博士,其导师为范磊副教授。他的主要研究方向为语义分割、多模态信息融合、3D视觉、高光谱图像和数据增强。

邮箱:qinfeng.zhu21@student.xjtlu.edu.cn 

主页:https://zhuqinfeng1999.github.io/

本文是对论文Rethinking Scanning Strategies with Vision Mamba in Semantic Segmentation of Remote Sensing Imagery: An Experimental Study 的解读。该论文由西交利物浦大学以及澳大利亚科学与工业研究院合作完成。

这项工作本文总结了Vision Mamba常用的扫描策略,并设计了实验框架,首次定量评估了Vision Mamba的各种扫描策略对遥感图像语义分割准确性的影响。基于卷积神经网络(CNN)和Vision Transformer(ViT)的深度学习方法经常用于高分辨率遥感图像的语义分割。然而,CNN受限于其有限的感受野,而ViT则面临着二次复杂度的挑战。最近,Mamba模型凭借其线性复杂度和全局感受野,在视觉任务中引起了广泛关注。在这些任务中,需要将图像序列化,以适配Mamba模型的序列输入。大量研究探索了图像序列化的扫描策略,旨在增强Mamba模型对图像的理解。然而,这些扫描策略的有效性仍是未知的。在本研究中,我们对主流的扫描方向及其组合对遥感图像语义分割的影响进行了全面的实验研究。通过在LoveDA、ISPRS Potsdam和ISPRS Vaihingen数据集上广泛的实验,我们证明了无论其复杂性或扫描方向的数量,没有一个扫描策略能够显著优于其他策略。所以对于高分辨率遥感图像的语义分割,简单的单一扫描方向已经足够。本文还提出了未来的研究方向。   

85bf12e9ce739381d0d2dc58487aa35d.png

论文标题:Rethinking Scanning Strategies with Vision Mamba in Semantic Segmentation of Remote Sensing Imagery: An Experimental Study

原文链接:https://arxiv.org/abs/2405.08493

单位:西交利物浦大学、CSIRO(澳大利亚科学与工业研究院)   

01 背景介绍

620f13016702180fbf2360ef7289b72e.png

图1. Vision Mamba中常用的12种扫描方向。图像根据预设置的大小裁剪成patches,然后根据特定的扫描方向将这些patches建模为序列。

Mamba是一个基于状态空间模型(SSM)的网络,最初应用于大型语言模型。Mamba 作为一个类似于循环神经网络的序列网络,能够归纳先前信息并预测后续状态。通过引入选择性机制来选择性地关注或忽略输入,它有效地压缩了长期上下文信息。在应用于视觉任务时,该网络能够兼顾全局感受野和线性复杂度,这表明它在遥感图像分割中具有很大潜力。

借鉴了ViT将Transformer架构引入视觉任务的成功经验,大量研究成功地将Mamba集成到图像处理任务中。类似于ViT将图像裁剪成patch并展开以输入Transformer模型的方式,Mamba将图像patch作为序列进行处理。然而,与ViT不同的是,ViT能够在这些图像patch之间计算多头自注意力,而Mamba则顺序的处理图像patch。因此,有许多可用的图像patch的扫描方向。

大量研究探索了新的扫描方向及其组合,试图增强Mamba对图像理解的性能。图1展示了12种常用的扫描方向(D1 - D12)。D1 - D4 是以“Z”字形模式顺序扫描图像patch的每一行或每一列。D5 - D8 是对图像patch进行对角线方向的顺序扫描。D9 - D12 则进行“S”字形蛇形扫描。然而,现有研究尚未全面比较其有效性。因此,亟需一项比较研究,定量评估各种扫描方向及其组合对Mamba在典型遥感任务(语义分割)性能的影响。

02 相关工作

2ee00edb21af79b867718163fda55ffa.png

图2. (a) 平铺扫描策略,与Samba一致;(b) 平铺后进行正向和反向扫描,然后合并,与Vim一致;(c) 依次进行四个方向的扫描,然后合并,与VMamba一致;(d) 四个方向的蛇形扫描,与PlainMamba一致。

由于Mamba是一个序列网络,无法直接处理二维图像数据,因此探索将图像序列化的方法是有意义的。Vim进行了首次尝试,其方法与ViT相似,将图像裁剪成patch并展开。它对图像patch进行正向(D1)和反向(D2)扫描,然后合并,如图2(b)所示。类似地,VMamba在ViM的基础上增加了两个垂直扫描方向(D3,D4),如图2(c)所示。PlainMamba采用了蛇形扫描方法(D8,D9,D10,D11),如图3(d)所示。这些尝试都是基于一个假设,即不同的图像patch扫描方向可能会增强Mamba对图像的理解。然而,目前仍缺乏在不同扫描方向下对模型性能进行全面和定量的比较。   

随着Vision Mamba的不断发展,许多研究评估了其在语义分割任务中的表现,特别是在医学和遥感领域。U-Mamba是首次将Mamba与UNet架构结合,用于医学图像语义分割的尝试。随后,基于Vim的双向扫描和VMamba的四向扫描的工作相继出现。在遥感领域,Samba是第一个将Mamba引入遥感图像语义分割的研究,其中图像patch按照与ViT相同的方式展开,如图2(a)所示。之后,RS3Mamba使用VMamba的四向扫描方法构建了辅助编码器,用于语义分割。类似地,RSMamba在VMamba的四向扫描基础上,在其编码器-解码器架构中增加了四个额外的对角线方向(即D5、D6、D7和D8)。

03 实验

aa0465f65a6ec50a29234be18a90f7fb.png

图3. 实验框架的总体架构。

为了全面评估扫描策略对Mamba在高分辨率图像语义分割任务中表现的影响,我们设计了一个特定的语义分割框架,使用编码器-解码器架构以便于对扫描策略进行定量比较。整体框架如图3左侧所示。在编码器部分,图像被裁剪成patch,然后依次输入四个Vision Mamba Scan (VMS)模块进行渐进式降采样。为了确保实验的公平性,我们一致使用UperNet作为解码器来生成分割结果。VMS模块是一个带有跳跃连接的残差网络。残差网络由两个分支组成。一个分支使用深度卷积(DW Conv)层来提取特征,对各个方向的扫描进行S6计算,然后进行合并。另一个分支则由线性映射和激活层组成。虽与Mamba相似,该架构在图像扫描形式上存在一个关键区别,称为8方向扫描(8D Scan)模块,如图3右侧所示。由于我们实验中考虑的扫描方向数量从1(即单向)到8(即8个单独扫描方向的组合),我们在8D Scan模块中设计了8个潜在的扫描方向:Dn1、Dn2、Dn3、……、Dn8。

b270b5e58acb57d9c28b2e1bd168bcfd.png

图4. 扫描策略的实验设置

图4展示了我们实验中测试的22种扫描策略,包含了主流的扫描策略的方法。实验设置详见原文。  

04 结果    

9b2c717403a7c405cb692cfa566d71f8.png

表1. 不同扫描策略在Vaihingen数据集的分割表现。

fc0ac7c05cd9bea02858a755fd86309b.png  

表2. 不同扫描策略在Potsdam数据集的分割表现。

ab42d25fc206218345dea388b506a3da.png

表3. 不同的扫描策略在LoveDA数据集的分割表现。

表1、2和3分别展示了使用图4中详细描述的22种扫描策略在ISPRS Vaihingen、ISPRS Potsdam和LoveDA数据集上的语义分割表现。我们在三个数据集中观察到一个有趣的现象:由22种扫描策略得到的分割准确率都是相似的。考虑到每个数据集中不同扫描策略之间的微小性能差异,以及单个扫描策略在三个数据集中的性能变化,没有明显的迹象表明特定的扫描策略在复杂性或涉及单个或多个扫描方向上优于其他策略。观察到的任何轻微性能波动可能都归因于训练过程中的随机性。基于结果的详细讨论以及未来工作详见论文。

05 结论

本研究在ISPRS Vaihingen、ISPRS Potsdam和LoveDA数据集上,定量研究了22种扫描策略对基于Mamba方法的高分辨率遥感图像语义分割的影响。实验结果表明,无论是单向扫描方向还是其组合,各种扫描策略并未在分割准确率上带来明显提升。因此,对于遥感图像,简单的平铺方法在基于Mamba的方法中已足够。然而,多方向扫描方法在常规图像中的有效性仍需验证。我们的研究还发现,减小步长可以提高Mamba在语义分割中的表现,但代价是增加计算资源的消耗。因此,开发更高效的计算方法以支持更密集的扫描是有价值的。

参考文献:

[1] Zhu, Q., Fang, Y., Cai, Y., Chen, C., & Fan, L. (2024). Rethinking scanning strategies with vision Mamba in semantic segmentation of remote sensing imagery: An experimental study.  http://arxiv.org/abs/2405.08493

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立

 
 
扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

 
 
▲扫码或加微信号: CVer5555,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!

▲扫码加入星球学习
 
 
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值