VMamba笔记

Ting_King_ing

已于 2024-07-15 09:57:31 修改

阅读量326

点赞数 14

分类专栏：论文笔记文章标签： python 计算机视觉图像处理人工智能

于 2024-07-12 20:00:09 首次发布

本文链接：https://blog.csdn.net/Ting_King_ing/article/details/140385629

版权

3 篇文章 0 订阅

订阅专栏

没想到会有人看..

文末附上论文和代码的网页链接

现有视觉学习骨干：
- 卷积神经网络CNN：为了提高CNN的灵活性和效率，人们提出了更复杂的算子。从Transformers中汲取灵感，将长程依赖性和动态权重纳入其架构设计
- 视觉转换器ViTs：基于vanilla Transformer架构，比起CNN有更强的学习力。然而自注意力在大空间分辨率下有着大量的计算开销。为了减轻ViT对超大数据集的依赖，引入了一种师生蒸馏策略
新的状态空间模型（SSM）：线性复杂度长序列建模方法，即输入数据的规模并不会明显影响模型性能。现有结构化 SSM 模型主要侧重于将 SSM 应用于长距离和顺序数据（如文本和语音），但对 SSM 在具有二维结构的视觉数据中的应用探索有限。

Mamba核心算法：并行化选择性扫描操作，本质上是为处理一维顺序数据而设计
VMamba 集成了基于 SSM 的模块的视觉主干，是一个在线性时间复杂度下工作的视觉骨干。
VMamba核心：
- 二维选择性扫描（SS2D）：为空间域遍历量身定制的四向扫描机制，与自注意力（a）相比，确保每个图像补丁仅通过沿相应扫描路径计算的压缩隐藏状态获得上下文知识（b），从而将计算复杂度从二次降低到线性
- VSS模块