在序列建模中,一个核心目标是设计一个能够跨越多种模态和任务的统一模型,特别是在处理长距离依赖关系时。虽然传统模型如RNNs(递归神经网络)、CNNs(卷积神经网络)和Transformers都有专门的变种来捕捉长距离依赖关系,但它们在处理超过10000步的非常长序列时仍然面临挑战。最近提出的一种有前景的方法是通过模拟基本的状态空间模型(SSM)来建模序列,该模型形式化如下:
x ˙ ( t ) = A x ( t ) + B u ( t ) , \dot{x}(t) = Ax(t) + Bu(t),