【阅读文献笔记】VisionMamba

这篇论文主要由华中科技大学、地平线机器人、北京人工智能研究院的研究人员贡献,深入研究了Mamba 是如何处理视觉任务的。状态空间模型(SSM)在处理长序列数据方面表现出色,尤其是在捕捉长距离依赖关系方面。Vision TransformersViTs)在视觉表示学习中取得了巨大成功,但自注意力机制在处理高分辨率图像时存在速度和内存使用上的挑战。作者受到Mamba模型在语言建模中的成功启发,提出了Vision MambaVim),一种新颖骨干视觉网络结构,该结构纯粹基于SSM,尤其是借鉴了Mamba硬件感知设计,Vim摒弃了自注意力机制,利用带有位置嵌入的双向选择性状态空间对视觉上下文进行有效压缩,并通过位置嵌入提供空间信息以增强位置敏感性识别能力建模旨在将这种高效的状态空间模型应用于视觉任务。

Vim模块

Vim模型首先将输入图像划分为几个小块,然后将线性投影到向量序列上,并添加位置嵌入。随后通过Vim编码器处理这些序列。Vim编码器使用双向Mamba块,这些块通过位置嵌入来标记图像序列,并使用双向状态空间模型压缩视觉表示。

实验

Vim是首个纯SSM基线模型成功应用于目标检测、语义分割和实例分割等任务中。并且与现有典型视觉模型TransformerDeiT相比,在ImageNet分类任务上表现更高的性能。

值得一提的是,DeiT-Ti Vim-TiCascade Mask R-CNN 框架上的可视化比较。由于SSM的远程上下文学习,我们可以捕获图像中非常大的对象,DeiT-Ti对应物无法感知。

总结

论文介绍了一种将Mamba用于视觉任务的方法,该方法利用双向状态空间模型(ssm)进行全局视觉上下文建模和位置嵌入。Vim展示了一种有效的方法来掌握视觉数据的位置上下文,而不需要基于Transformer的注意机制。Vim以其次二次的时间计算和线性内存复杂性与Transformer模型中典型的二次增长形成鲜明对比。这一点使得Vim特别适合处理高分辨率图像。通过对ImageNet分类等基准的全面测试,验证了Vim的性能和效率,证明可以将其应用在计算机视觉领域强大模型的地位。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值