(1)Papar Reading——Vision Mamba: Efficient Visual Representation Learning with Bidirectional SSM
最近,具有高效硬件感知设计的状态空间模型(SSMs),即Mamba,在长序列建模方面显示出巨大潜力。纯粹基于SSMs构建高效通用的视觉backbone是一个有吸引力的方向。然而,由于视觉数据的位置敏感性和视觉理解对全局上下文的要求,对于ssm来说,视觉表示数据是一个挑战。在本文中,我们证明了视觉表示学习对自注意力的依赖并非必要,并提出了一种新的具有双向Mamba块(Vim)的通用视觉骨干,它使用位置嵌入标记图像序列,并利用双向状态空间模型压缩视觉表示。
原创
2024-01-25 16:58:50 ·
2102 阅读 ·
0 评论