论文阅读:VMamba: Visual State Space Model
abstract
卷积神经网络(CNNs)和ViTs是视觉表示学习的两个最受欢迎的基础模型。尽管CNNs在图像分辨率方面表现出显著的可扩展性,具有线性复杂度,但ViTs在拟合能力上超越了它们,尽管它们面临着二次方复杂度的挑战。仔细检查发现,ViTs通过整合全局感受野和动态权重实现了卓越的视觉建模性能。这一观察启发我们提出了一种新的架构,它继承了这些组件,同时提高了计算效率。为此,我们从最近引入的状态空间模型中汲取灵感,提出了视觉状态空间模型(VMamba),它在不牺牲全局感受野的情况下实现了线性复杂度。为了解决遇到的与方向敏感性相关的问题,我们引入了交叉扫描模块(CSM)来遍历空间域,并将任何非因果视觉图像转换为有序的块序列。
3. Method
3.1 Preliminaries
State Space Models
State Space Models (SSMs) 通常被视为线性时不变系统,它们将激励x(t)∈RLx(t)\in\mathbb{R}^Lx(t)∈RL映射到响应y(t)∈RLy(t)\in\mathbb{R}^Ly(t)∈RL。数学上,这些模型通常被表述为线性常微分方程(ODEs),公式如下:
h′(t)=Ah(t)+Bx(t)y(t)=Ch(t)+Dx(t) \begin{aligned}h^{\prime}(t)&=Ah(t)+Bx(t)\\y(t)&=Ch(t)+Dx(t)\end{aligned} h′(t)y(t)=Ah(t)+Bx(t)=Ch(t)+Dx(t)
其中,参数包括状态大小为NNN的矩阵 A∈CN×N,B,C∈CNA\in \mathbb{C}^{N\times N},B, C\in\mathbb{C}^NA∈CN×N,B,C∈CN以及跳跃连接 D∈C1D\in\mathbb{C}^1D∈C1。
Discretization
作为连续时间模型的SSMs,在集成到深度学习算法时面临巨大挑战。为了克服这个障碍,离散化过程变得至关重要。
离散化的主要目标是将ODE转换为离散函数。这种转换对于将模型与输入数据中体现的信号的采样率对齐至关重要,从而实现计算效率的操作。考虑到输入xk∈RL×Dx_k\in \mathbb{R}^{L\times D}