结构化状态空间模型的直观解释（第二部分）_结构化状态空间序列模型-CSDN博客

本文链接：https://blog.csdn.net/2401_85233349/article/details/141889540

第 2 部分 - 面向图像、视频和时间序列的 Mamba 状态空间模型（欢迎来到雲闪世界。）

添加图片注释，不超过 140 字（可选）

年代状态空间模型几十年来为许多工程学科所熟知，现在在深度学习中首次亮相。在我们探索 Mamba 选择性状态空间模型及其最新研究成果的过程中，了解状态空间模型至关重要。而且，正如工程中经常出现的情况一样，正是细节让理论概念在实践中得以应用。除了状态空间模型之外，我们还必须讨论如何将它们应用于序列数据、如何处理长距离依赖关系以及如何通过利用某些矩阵结构来有效地训练它们。

结构化状态空间模型为 Mamba 构建了理论基础。然而，它们与系统理论和高级代数的联系可能是采用这一新框架的障碍之一。因此，让我们分解一下，确保我们理解关键概念并将它们可视化，以阐明这一新旧理论。

即使您最终没有使用状态空间模型，了解一些技巧（例如为什么我们需要加速矩阵乘法以及如何利用某些矩阵结构来实现这一点）也肯定会提升您作为工程师或开发人员的技能。

在第 1 部分中，我们回顾了循环神经网络 (RNN) 和 Transformers 的优缺点，以说明为什么我们需要一种新的模型架构。我们说 RNN 推理速度快，但训练速度慢，而 Transformer 训练速度快，但推理速度慢。我们想要找到一个训练和推理速度都很快的模型，同时要与 Transformer 的性能相媲美。

2. 状态空间模型简介 Mamba 建立在通过学习各种矩阵将状态空间模型用于深度学习的理念之上。因此，在探索“结构化”部分的含义之前，让我们先简单了解一下状态空间模型。状态空间模型可以定义为连续时间表示以处理连续信号，也可以离散化以处理离散数据序列。我们最感兴趣的是离散状态空间模型，因为像循环神经网络 (RNN) 和 Transformers 一样，离散 SSM 处理数据序列，例如文本标记或模拟时间信号的样本。 2.1 状态空间模型的连续时间表示连续时间状态空间模型描述了通过状态系统传播的输入信号与产生的输出信号之间的关系。