每日阅读论文02---Mamba (VMamba) 系列

今日分享三篇论文:利用VMamba的基础模块Visual State Space (VSS)来解决下游任务(分割和检测)。


目录

一、Mamba YOLO: SSMs-Based YOLO For Object Detection

1、Overall Architecture

2、ODSS Block

二、RS^3Mamba: Visual State Space Model for Remote Sensing Image Semantic Segmentation

1、Overall Architecture

2、CCM

三、VM-UNet: Vision Mamba UNet for Medical Image Segmentation

1、Overall Architecture

四、总结


一、Mamba YOLO: SSMs-Based YOLO For Object Detection

Published in: Arxiv

Contributions: Mamba-YOLO, ODSS Block

1、Overall Architecture

Backbone(特征提取)+PAFPN(不同特征尺度融合)+Head(检测)

2、ODSS Block

这个结构由三部分组成LocalSpatial (LS) 和2D Selective Scan (SS2D) 以及ResGated (RG) 三部分,整体的结构风格借鉴了Transformer block。

LocalSpatial Block:提取局部信息,但在Mamba结构中有一层卷积,正如该博客提到的,或许是因为局部提取能力不足。(注:对于Mamba不太了解的可以看看这个博客,感觉挺好的!!!)

SS2D:提取全局信息 (long-range dependencies)

ResGated Block:提高模型性能


二、RS^3Mamba: Visual State Space Model for Remote Sensing Image Semantic Segmentation

Published in: IEEE GEOSCIENCE AND REMOTE SENSING LETTERS

Contributions: RS^3Mamba,  Collaborative Completion Module (CCM)

1、Overall Architecture

Encoder分为两个分支(主+辅),辅分支的VSS block提取全局特征,主分支的residual block采用Resnet18结构来提取局部特征,并通过CCM融合。Decoder采用UNetformer中的结构。

2、CCM

很容易可以看出,提取到的全局和局部特征再次进行特征提取,即F_m^i(这是辅Encoder提取到的全局特征)进一步通过Local Branch提取局部特征,F_a^i同理。


三、VM-UNet: Vision Mamba UNet for Medical Image Segmentation

Published in: Arxiv

Contributions: VM-UNet

1、Overall Architecture

跟上一篇一样都是Encoder和Decoder(U结构),引入VSS结构,验证其有效性。


四、总结

1、基本都是提取全局特征和局部特征,然后进行融合。

注:在CV领域,通道上的特征信息是否可以考虑!!!  进行融合!!!(融合的策略如何考虑)

2、从实验结果上来看,好像确实比transformer性能要好。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值