从 S4 到 S6 的转换过程

最新推荐文章于 2024-11-26 22:45:32 发布

six.学长

最新推荐文章于 2024-11-26 22:45:32 发布

阅读量1.4k

点赞数 28

分类专栏： Mamba 文章标签：深度学习

本文链接：https://blog.csdn.net/m0_51200050/article/details/140662629

版权

Mamba 专栏收录该内容

11 篇文章

订阅专栏

在这里插入图片描述

从 S4 到 S6 的转换过程解释

这张图详细说明了从 S4 模型到 S6 模型的转换过程中，参数矩阵 $\mathbf{A}$ 、 $\mathbf{B}$ 、 $\mathbf{C}$ 以及步长 $\Delta$ 形状的变化。我们将通过具体的数据举例，解释这些参数如何应用于模型中。

状态空间模型 S4

在 S4 模型中，参数矩阵的形状如下：

矩阵 $\mathbf{A}$ ： $(D, N)$
- $D$ 是输入向量的维度（如颜色通道数 RGB）。
- $N$ 是隐藏状态维度。
矩阵 $\mathbf{B}$ ： $(D, N)$
- 表示输入向量如何影响当前状态。
矩阵 $\mathbf{C}$ ： $(N, D)$
- 表示当前状态如何转换为输出。

状态空间模型 S6

在 S6 模型中，参数矩阵的形状变为：

矩阵 $\mathbf{A}$ ： $(D, N)$
- 保持不变，表示当前状态如何随时间演变。
矩阵 $\mathbf{B}$ ： $(B, L, N)$
- 每个批次和序列位置都有一个独特的 $\mathbf{B}$ 矩阵。
矩阵 $\mathbf{C}$ ： $(B, L, N)$
- 每个批次和序列位置都有一个独特的 $\mathbf{C}$ 矩阵。
步长 $\Delta$ ： $(B, L, D)$
- 每个位置的步长 $\Delta$ 都不同，允许对输入序列中的每个位置进行独特的离散化处理。

具体示例

假设我们有以下参数：

批量大小 $B = 2$
序列长度 $L = 4$
输入维度 $D = 3$
隐藏状态维度 $N = 2$

输入矩阵 $\mathbf{X}$

$\mathbf{X} = \begin{pmatrix} \begin{pmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \\ 7 & 8 & 9 \\ 10 & 11 & 12 \end{pmatrix}, \begin{pmatrix} 13 & 14 & 15 \\ 16 & 17 & 18 \\ 19 & 20 & 21 \\ 22 & 23 & 24 \end{pmatrix} \end{pmatrix}$

矩阵 $\mathbf{A}$

$\mathbf{A} = \begin{pmatrix} 0.5 & 0.1 \\ 0.2 & 0.3 \\ 0.4 & 0.4 \end{pmatrix}$

矩阵 $\mathbf{B}$ 在 S4 中

$\mathbf{B}_{S4} = \begin{pmatrix} 0.7 & 0.8 \\ 0.9 & 1.0 \\ 1.1 & 1.2 \end{pmatrix}$

矩阵 $\mathbf{B}$ 在 S6 中

$\mathbf{B}_{S6} = \begin{pmatrix} \begin{pmatrix} 0.7 & 0.8 \\ 0.9 & 1.0 \\ 1.1 & 1.2 \\ 1.3 & 1.4 \end{pmatrix}, \begin{pmatrix} 1.5 & 1.6 \\ 1.7 & 1.8 \\ 1.9 & 2.0 \\ 2.1 & 2.2 \end{pmatrix} \end{pmatrix}$

矩阵 $\mathbf{C}$ 在 S4 中

$\mathbf{C}_{S4} = \begin{pmatrix} 1.3 & 1.4 \\ 1.5 & 1.6 \\ 1.7 & 1.8 \end{pmatrix}$

矩阵 $\mathbf{C}$ 在 S6 中

$\mathbf{C}_{S6} = \begin{pmatrix} \begin{pmatrix} 1.3 & 1.4 \\ 1.5 & 1.6 \\ 1.7 & 1.8 \\ 1.9 & 2.0 \end{pmatrix}, \begin{pmatrix} 2.1 & 2.2 \\ 2.3 & 2.4 \\ 2.5 & 2.6 \\ 2.7 & 2.8 \end{pmatrix} \end{pmatrix}$

步长 $\Delta$ 在 S6 中

$\Delta_{S6} = \begin{pmatrix} \begin{pmatrix} 0.1 & 0.2 & 0.3 \\ 0.4 & 0.5 & 0.6 \\ 0.7 & 0.8 & 0.9 \\ 1.0 & 1.1 & 1.2 \end{pmatrix}, \begin{pmatrix} 1.3 & 1.4 & 1.5 \\ 1.6 & 1.7 & 1.8 \\ 1.9 & 2.0 & 2.1 \\ 2.2 & 2.3 & 2.4 \end{pmatrix} \end{pmatrix}$

处理流程示例

初始化状态 $\mathbf{h}[0]$

假设初始状态为零向量：
$\mathbf{h}[0] = \begin{pmatrix} 0 \\ 0 \end{pmatrix}$

计算第一个时间步的状态更新（S4）

$\mathbf{h}[1] = \mathbf{A} \mathbf{h}[0] + \mathbf{B}_{S4} \mathbf{x}[0] = \begin{pmatrix} 0.5 & 0.1 \\ 0.2 & 0.3 \\ 0.4 & 0.4 \end{pmatrix} \begin{pmatrix} 0 \\ 0 \end{pmatrix} + \begin{pmatrix} 0.7 & 0.8 \\ 0.9 & 1.0 \\ 1.1 & 1.2 \end{pmatrix} \begin{pmatrix} 1 \\ 2 \\ 3 \end{pmatrix}$
$\begin{pmatrix} 0.7 \times 1 + 0.8 \times 2 + 1.1 \times 3 \\ 0.9 \times 1 + 1.0 \times 2 + 1.2 \times 3 \\ 1.1 \times 1 + 1.2 \times 2 + 1.3 \times 3 \end{pmatrix} = \begin{pmatrix} 5.7 \\ 8.3 \\ 11.1 \end{pmatrix}$

计算第一个时间步的状态更新（S6）

在 S6 中，状态更新公式类似，但使用的是每个位置独特的 $\mathbf{B}$ 矩阵和 $\Delta$ ：
$\mathbf{h}[1] = \mathbf{A} \mathbf{h}[0] + \mathbf{B}_{S6} \mathbf{x}[0] = \begin{pmatrix} 0.5 & 0.1 \\ 0.2 & 0.3 \\ 0.4 & 0.4 \end{pmatrix} \begin{pmatrix} 0 \\ 0 \end{pmatrix} + \begin{pmatrix} 0.7 & 0.8 \\ 0.9 & 1.0 \\ 1.1 & 1.2 \end{pmatrix} \begin{pmatrix} 1 \\ 2 \\ 3 \end{pmatrix}$
$\begin{pmatrix} 5.7 \\ 8.3 \\ 11.1 \end{pmatrix}$

输出计算（S4）

$\mathbf{y}[1] = \mathbf{C}_{S4} \mathbf{h}[1] = \begin{pmatrix} 1.3 & 1.4 \\ 1.5 & 1.6 \\ 1.7 & 1.8 \end{pmatrix} \begin{pmatrix} 5.7 \\ 8.3 \end{pmatrix}$
$\begin{pmatrix} 1.3 \times 5.7 + 1.4 \times 8.3 \\ 1.5 \times 5.7 + 1.6 \times 8.3 \\ 1.7 \times 5 .7 + 1.8 \times 8.3 \end{pmatrix} = \begin{pmatrix} 18.91 \\ 21.51 \\ 24.11 \end{pmatrix}$

输出计算（S6）

$\mathbf{y}[1] = \mathbf{C}_{S6} \mathbf{h}[1] = \begin{pmatrix} 1.3 & 1.4 \\ 1.5 & 1.6 \\ 1.7 & 1.8 \end{pmatrix} \begin{pmatrix} 5.7 \\ 8.3 \end{pmatrix}$
$\begin{pmatrix} 18.91 \\ 21.51 \\ 24.11 \end{pmatrix}$