每日阅读论文02---Mamba (VMamba) 系列

今日分享三篇论文:利用VMamba的基础模块Visual State Space (VSS)来解决下游任务(分割和检测)。


目录

一、Mamba YOLO: SSMs-Based YOLO For Object Detection

1、Overall Architecture

2、ODSS Block

二、RS^3Mamba: Visual State Space Model for Remote Sensing Image Semantic Segmentation

1、Overall Architecture

2、CCM

三、VM-UNet: Vision Mamba UNet for Medical Image Segmentation

1、Overall Architecture

四、总结


一、Mamba YOLO: SSMs-Based YOLO For Object Detection

Published in: Arxiv

Contributions: Mamba-YOLO, ODSS Block

1、Overall Architecture

Backbone(特征提取)+PAFPN(不同特征尺度融合)+Head(检测)

2、ODSS Block

这个结构由三部分组成LocalSpatial (LS) 和2D Selective Scan (SS2D) 以及ResGated (RG) 三部分,整体的结构风格借鉴了Transformer block。

LocalSpatial Block:提取局部信息,但在Mamba结构中有一层卷积,正如该博客提到的,或许是因为局部提取能力不足。(注:对于Mamba不太了解的可以看看这个博客,感觉挺好的!!!)

SS2D:提取全局信息 (long-range dependencies)

ResGated Block:提高模型性能


二、RS^3Mamba: Visual State Space Model for Remote Sensing Image Semantic Segmentation

Published in: IEEE GEOSCIENCE AND REMOTE SENSING LETTERS

Contributions: RS^3Mamba,  Collaborative Completion Module (CCM)

1、Overall Architecture

Encoder分为两个分支(主+辅),辅分支的VSS block提取全局特征,主分支的residual block采用Resnet18结构来提取局部特征,并通过CCM融合。Decoder采用UNetformer中的结构。

2、CCM

很容易可以看出,提取到的全局和局部特征再次进行特征提取,即F_m^i(这是辅Encoder提取到的全局特征)进一步通过Local Branch提取局部特征,F_a^i同理。


三、VM-UNet: Vision Mamba UNet for Medical Image Segmentation

Published in: Arxiv

Contributions: VM-UNet

1、Overall Architecture

跟上一篇一样都是Encoder和Decoder(U结构),引入VSS结构,验证其有效性。


四、总结

1、基本都是提取全局特征和局部特征,然后进行融合。

注:在CV领域,通道上的特征信息是否可以考虑!!!  进行融合!!!(融合的策略如何考虑)

2、从实验结果上来看,好像确实比transformer性能要好。

Mamba YOLO是一个改进版的YOLO(You Only Look Once)目标检测模型,它结合了SSMs(Spatial Squeeze Modules)以提升模型的性能。以下是配置和安装Mamba YOLO并将其应用于对象检测的基本步骤: 1. **安装依赖库**: - 首先,确保你已经安装了Python和必要的深度学习框架如TensorFlow或PyTorch。如果你选择的是Mamba,这是一个基于MxNet的版本,你需要安装MxNet。 ``` pip install mxnet gluoncv ``` 2. **下载预训练模型或源码**: - 可能需要从GitHub上克隆Mamba YOLO的官方仓库或下载预训练权重文件。确保你也下载最新的SSMs模块。 ``` git clone https://github.com/Megvii-model/mamba-yolo.git ``` 3. **设置环境**: - 配置好你的工作环境,可能包括调整CUDA/CuDNN版本,如果需要的话。 4. **构建模型**: 使用提供的脚本或配置文件创建模型结构,并指定使用SSMs。例如,修改`yolov3_ssm_config.py`或`yolov3_ssm.py`来启用SSM模块。 5. **数据集准备**: 准备适合训练的数据集,通常需要标记好的图片文件和类别信息。可以使用如VOC、COCO等标准数据集。 6. **训练模型**: 运行训练脚本来训练模型,传递适当的数据路径、批量大小、迭代次数等参数。 ``` python train.py --config yolov3_ssm_config.yaml ``` 7. **验证和测试**: 训练完成后,你可以通过评估脚本检查模型性能,并使用测试集验证模型能否准确地进行物体检测。 8. **部署应用**: 将模型导出为推理可用的格式(如.onnx或.pb),然后集成到你的应用程序中,比如实时视频流处理或静态图像检测。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值