LSTM公式详解&推导

zorchp

已于 2024-08-07 19:00:33 修改

阅读量1.8w

点赞数 56

分类专栏： ML&DL 文章标签： lstm 深度学习神经网络

于 2021-06-25 14:46:53 首次发布

本文链接：https://blog.csdn.net/qq_41437512/article/details/113541031

版权

ML&DL 专栏收录该内容

12 篇文章

订阅专栏

本文深入解析LSTM（长短时记忆网络），旨在解决RNN中的梯度消失问题。文章介绍了LSTM的结构、流程，详细推导了前向传播和反向传播的公式，包括输入门、遗忘门、输出门以及Cell状态的计算，为读者提供了深入理解LSTM的基础。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

书籍简介
LSTM理解
- LSTM流程简介
算法及公式
- 一些函数
- 一些符号
前向传播
反向传播
- 关于误差的定义
- 公式推导
总结

书籍简介

《Surpervised Sequence Labelling with Recurrent Neural Network》（《用循环神经网络进行序列标记》），RNN（Recurrent Neural Network，循环神经网络）经典教材，由多伦多大学Alexander Graves所著，详细叙述了各种RNN模型及其推导。本文介绍该书的LSTM部分。对于该书，想深入了解的朋友点这里获取资源。

LSTM理解

LSTM(Long Short-Term Memory Networks,长短时记忆网络)，由Hochreiter和Schmidhuber于1997年提出，目的是解决一般循环神经网络中存在的梯度爆炸（输入信息激活后权重过小）及梯度消失（例如sigmoid、tanh的激活值在输入很大时其梯度趋于零）问题，主要通过引入门和Cell状态的概念来实现梯度的调整，已被大量应用于时间序列预测等深度学习领域。
下面的描述主要侧重公式推导，对LSTM来由更详细的讨论请见《Step-by-step to LSTM: 解析LSTM神经网络设计原理》。

LSTM流程简介

LSTM采用了门控输出的方式，即三门（输入门、遗忘门、输出门）两态（Cell State长时、Hidden State短时）。其核心即Cell State，指用于信息传播的Cell的状态，在结构示意图（图1，图源Understanding LSTMs，略改动）中是最上面的直链（从 $C_{t-1}$ 到 $C_t$ ）。

图1

Memory Cell 接受两个输入，即上一时刻的输出值 $h_{t-1}$ 和本时刻的输入值 $x_t$ ，由这两个参数 先进入遗忘门，得到决定要舍弃的信息 $f_t$ （即权重较小的信息）后，再进入输入门，得到决定要更新的信息 $i_t$ （即与上一Cell相比权重较大的信息）以及当前时刻的Cell状态 $\tilde{C}_t$ （候选向量，可理解为中间变量，存储当前 Cell State 信息），最后由这两个门（遗忘门，输入门）的输出值（即 $f_t,i_t,\tilde{C_t}$ ）进行组合（上一Cell状态 $C^{t-1}\times$ 要遗忘信息的激活值 $f_t$ 与当前时刻Cell状态 $\tilde{C_t}\times$ 需要记忆信息的激活值 $i_t$ 进行叠加，从图中可以更直观得到），得到分别的长时（ $C_t$ ）和短时（ $h_t$ ）信息，最后进行存储操作及对下一个神经元的输入。下图2介绍了LSTM在网络中是如何工作的。

图2

根据图1，可依次得到三个门的形式方程如下（符号与图中保持一致）：

遗忘门：

$f_t=\sigma\left(W_f\cdot[h_{t-1}, x_t]+b_f\right)$

输入门：

$i_t=\sigma\left(W_i\cdot[h_{t-1}, x_t]+b_i\right)$

$\tilde{C_t}=\tanh\left(W_C\cdot[h_{t-1}, x_t]+b_C\right)$

以及 $t$ 时刻的Cell 状态（长时）方程：

$C_t=f_t\cdot C_{t-1}+i_t\cdot \tilde{C_t}$

输出门：

$o_t=\sigma\left(W_o\cdot[h_{t-1}, x_t]+b_o\right)$

$h_t=o_t\cdot\tanh{(C_t)}$

算法及公式

根据上面的描述及图1，首先定义如下符号（符号为方便理解，与书中保持一致）：

一些函数

$f$ ：门的激活函数
$g$ ：Cell输入的激活函数
$h$ ：Cell输出的激活函数

$\mathcal{L}$ ：训练模型时的损失函数
$\sigma(z)$ ：Sigmoid激活函数
$\sigma(z)=\frac{1}{1+\mathrm{e}^{-z}}=\frac{1+\tanh(z/2)}{2},$

$\sigma'(z)=\sigma(z)[1-\sigma(z)].$

$\tanh(z)$ ：tanh激活函数
$\tanh(z)=\frac{\mathrm{e}^z-\mathrm{e}^{-z}}{\mathrm{e}^z+\mathrm{e}^{-z}},$

$tanh'(z)=1-\tanh^2(z).$

一些符号

$I$ ：输入层 信息的数量
$K$ ：输出层 信息的数量
$H$ ：隐层 Cell状态的数量（注意这里的Cell与下面的Cell不同，代表短时记忆Cell），指图1中最下面的一条直链，即从 $h_{t-1}$ 到 $h_t$ ，处理短时记忆
$C$ ：Cell状态信息（长时记忆状态）的数量
$T$ ：总时间数（网络层总数），即 $t=0,1,2,\cdots,T$

$\phi$ ：下标，指一个LSTM单元的遗忘门
$\iota$ ：下标，指一个LSTM单元的输入门
$\omega$ ：下标，指一个LSTM单元的输出门
$c$ ：下标，指神经元中某一个 $C$ 记忆元胞（Cell）

$w_{ij}$ ：从单元 $i$ 到单元 $j$ 的权重
$b_j^t$ ： $t$ 时刻第 $j$ 个单元的激活值，在 $t = 0$ 时初始化为 $0$
$a_j^t$ ： $t$ 时刻第 $j$ 个单元的带权输入，可作抽象定义如下

$a_j^t=\sum_{i}{w_{ij}b_{i}^{t-1}}.$

$s_c^t$ ： $t$ 时刻记忆元胞 $c$ 的状态（State），在 $t = 0$ 时初始化为 $0$
$\delta_j^t$ ： $t$ 时刻第 $j$ 个单元的误差，在 $t = T + 1$ 时初始化为 $0$ 。一般化的定义为

$\delta_j^t=\frac{\partial \mathcal{L}}{\partial a_j^t}.$

前向传播

由上述的形式方程，很容易得到下面的前向传播公式：

遗忘门。由图1可知，遗忘门的输出依赖三个变量（图1中表示为左下角的两个输入和左上角的一个输入），分别是：上一时刻 $(t - 1)$ 神经元的短时记忆输出 $h_{t-1}$ ，本时刻 $(t)$ 神经元的输入 $x_t$ 以及上一时刻 $(t - 1)$ 神经元的长时记忆输出Cell状态 $s_c^{t-1}$ ，乘以权重因子后对层数求和即可得到遗忘门的输入值及激活值如下：

$a_\phi^t=\sum_{i=1}^Iw_{i\phi}x_i^t+\sum_{h=1}^{H}w_{h\phi}b_h^{t-1}+\sum_{c=1}^Cw_{c\phi}s_c^{t-1}\tag{1.1}$

$b_\phi^t=f(a_\phi^t)\tag{1.2}$

输入门。其输出所依赖的变量与遗忘门相同，故同理可得

$a_\iota^t=\sum_{i=1}^Iw_{i\iota}x_i^t+\sum_{h=1}^{H}w_{h\iota}b_h^{t-1}+\sum_{c=1}^Cw_{c\iota}s_c^{t-1}\tag{2.1}$

$b_\iota^t=f(a_\iota^t)\tag{2.2}$

Cell状态。由输入门的 $t$ 时刻的Cell 状态（长时）方程立即可得。

$a_c^t =\sum_{i=1}^I w_{ic}x_i^t+\sum_{h=1}^H w_{hc}b_h^{t-1}\tag{3.1}$

一一对应形式方程即可得到 $s_c^t$ 表达式如下

$\begin{aligned} C_t&=f_t\cdot C_{t-1}+i_t\cdot \tilde{C_t} \\ \vdots& \quad\ \ \vdots\ \ \ \ \ \ \ \vdots \qquad \ \ \vdots\ \ \ \ \ \vdots\\ s_c^{t}&= b_\phi^t \cdot s_c^{t-1}\,+b_\iota^t \cdot g(a_c^t)\tag{3.2} \end{aligned}$

输出门。由遗忘门同理可得

$a_\omega^t=\sum_{i=1}^Iw_{i\omega}x_i^t+\sum_{h=1}^{H}w_{h\omega}b_h^{t-1}+\sum_{c=1}^Cw_{c\omega}s_c^{t-1}\tag{4.1}$

$b_\omega^t=f(a_\omega^t)\tag{4.2}$

Cell输出。指激活后的Cell状态（短时记忆），同理可由形式方程一一对应得到，即

$\begin{aligned}h_t&=o_t\ \cdot\ \tanh{(C_t)}\tag{5.1} \\ \vdots&\ \ \ \quad\vdots\ \qquad \vdots\\ b_c^t&=b_\omega^t \cdot \ \ h(s_c^t)\end{aligned}$

反向传播

重头戏来了！建议不熟悉反向传播的朋友看一下我的另一篇文章nndl学习笔记（二）反向传播公式推导，帮助你快速理解&回顾反向传播。

同样地，为了与前向传播对应，这里也采用五个部分进行证明。反向传播，其目的就是通过计算损失函数关于权重和偏置的偏导数（本例中不对偏置进行分析），从而得到每一个神经元上出现的误差（误差定义为损失函数对神经元输入的偏导数），最后均摊给每个神经元，以此逐步减小误差。因为需要反向传播，所以顺序与前向传播正好相反（从后往前计算）。

关于误差的定义

Cell 输出的误差（短时记忆） $\epsilon_c^t=\frac{\partial \mathcal{L}}{\partial b_c^t}$
Cell 状态的误差（长时记忆） $\epsilon_s^t=\frac{\partial \mathcal{L}}{\partial s_c^t}$
$\delta_j^t$ ： $t$ 时刻第 $j$ 个单元的误差，在 $t = T + 1$ 时初始化为 $0$ 。定义为

$\delta_j^t=\frac{\partial \mathcal{L}}{\partial a_j^t}$

公式推导

这些公式的核心，都是根据链式法则求偏导数，需要注意损失函数与哪些变量有关，找准变量，再应用求导法则，即可轻松计算出表达式。

Cell输出（短时记忆）。
首先找Cell输出与哪些量有关，从图1可以得知其只与隐层（Cell短时记忆状态）和输出层两个部分的信息有关，再根据误差定义 $\delta_j^t=\frac{\partial \mathcal{L}}{\partial a_j^t}$ ，可以得到：
$\begin{aligned} \epsilon_c^t &=\frac{\partial \mathcal{L}}{\partial b_c^t} =\frac{\partial \mathcal{L}}{\partial a_j^t} \frac{\partial a_j^t}{\partial b_c^t} \\ &= \sum_{h=1}^H\frac{\partial \mathcal{L}}{\partial a_h^{t+1}} \frac{\partial a_h^{t+1}}{\partial b_c^t}+\sum_{k=1}^K\frac{\partial \mathcal{L}}{\partial a_k^t} \frac{\partial a_k^t}{\partial b_c^t} \\ &=\sum_{h=1}^H\delta_h^{t+1} \frac{\partial a_h^{t+1}}{\partial b_c^{t}} + \sum_{k=1}^K\delta_k^t \frac{\partial a_k^t}{\partial b_c^t} \end{aligned}$
注意到这里 $H$ 层时间状态取 $t + 1$ 而 $K$ 层取 $t$ ，是为了与前向传播式子的意义保持一致，即：隐层Cell状态前向传播需要前一时刻 $(t - 1)$ 的隐层Cell状态，而输出只需与本时刻输入的时刻 $(t)$ 一致即可，而反向传播正好相反（具体可见图1）。
再根据带权输入的一般定义（同上，需要根据情况构造定义式，即： $H$ 层时刻变化而 $K$ 层时刻保持不变）
$a_j^t=\sum_{i}{w_{ij}b_{i}^{t-1}}$
代入得到（注意这里有一步化简，去掉求和号，具体原因可见nndl学习笔记（二）反向传播公式推导公式一的推导部分）：
$\begin{aligned} \epsilon_c^t&=\sum_{h=1}^H\delta_h^{t+1} \frac{\partial (w_{ch}b_c^{t})}{\partial b_c^{t}}+\sum_{k=1}^K\delta_k^t \frac{\partial (w_{ck}b_c^{t})}{\partial b_c^{t}} \\ &=\sum_{h=1}^H\delta_h^{t+1}w_{ch}+\sum_{k=1}^K\delta_k^tw_{ck} \end{aligned}$
输出门。
这里只需用到误差定义式 $\epsilon_c^t=\frac{\partial \mathcal{L}}{\partial b_c^t}$ 及前向传播的 $(5.1)$ 式，最后一步求和是指针对所有神经元输出门激活值误差的叠加。
$\begin{aligned} \delta_\omega^t&=\frac{\partial \mathcal{L}}{\partial a_\omega^t} =\frac{\partial \mathcal{L}}{\partial b_\omega^t}\frac{\partial b_\omega^t}{\partial a_\omega^t} \\ &=\frac{\partial \mathcal{L}}{\partial b_\omega^t} f'(a_\omega^t) \\ &=f'(a_\omega^t) \frac{\partial \mathcal{L}}{\partial b_c^t} \frac{\partial b_c^t}{\partial b_\omega^t}\\ &= f'(a_\omega^t) \epsilon_c^t \frac{\partial b_c^t}{\partial b_\omega^t} \\ &= f'(a_\omega^t) \epsilon_c^t \frac{\partial \left[b_\omega^t h(s_c^t)\right]}{\partial b_\omega^t} \\ &=f'(a_\omega^t)\sum_{c=1}^Ch(s_c^t)\epsilon_c^t \end{aligned}$
Cell状态（长时记忆）。最长的一个式子，但是把握好变量之间的关系就可以轻松得出（ 直接寻找前向传播众多公式中哪个含有变量 $s_c^t$ ，这样再进行链式法则处理，会更加直观，由于五个式子都含有 $s_c^t$ ，故下面第四个等号后的式子有五项）。
推导过程与Cell输出（短时记忆）部分类似，要用到误差的一般定义 $\delta_j^t=\frac{\partial \mathcal{L}}{\partial a_j^t}$ ，并注意到本时刻Cell状态（长时记忆）是由上一时刻遗忘门 $(\phi)$ 和输入门 $(\iota)$ 的输出共同决定的（反映在图上就是图1中上面直链的加号）；在反向传播中，除了需要将Cell状态（长时记忆）的时间取反 $s_c^{t+1})$ ，还要考虑三个门误差的积累（第二个等号后式子第一项），注意这里计算输出门误差时没有取后一时刻 $t + 1$ ，是因为遗忘门和输入门的误差在前向传播时会传递给下一时刻的带权输入，故反向传播需要后一时刻来计算误差；而输出门误差在本时刻即可计算。反映到方程上为第二个等号后的方程。
$\begin{aligned} \epsilon_s^t &=\frac{\partial \mathcal{L}}{\partial s_c^t} \\ &=\frac{\partial \mathcal{L}}{\partial a_j^{t+1}} \frac{\partial a_j^{t+1}}{\partial s_c^t} + \frac{\partial \mathcal{L}}{\partial b_c^t} \frac{\partial b_c^t}{\partial s_c^t} + \frac{\partial \mathcal{L}}{\partial s_c^{t+1}} \frac{\partial s_c^{t+1}}{\partial s_c^t} \\ &= \delta_j^{t+1} \frac{\partial a_j^{t+1}}{\partial s_c^t} + \epsilon_c^t\frac{\partial \left[b_\omega^t h(s_c^t) \right]}{\partial s_c^t} + \epsilon_s^{t+1} \frac{\partial \left[ b_\phi^{t+1} \cdot s_c^{t}\,+b_\iota^{t+1} \cdot g(a_c^{t+1}) \right]}{\partial s_c^t} \\ &= \delta_\phi^{t+1} \frac{\partial a_\phi^{t+1}}{\partial s_c^t} + \delta_\iota^{t+1} \frac{\partial a_\iota^{t+1}}{\partial s_c^t} + \delta_\omega^t \frac{\partial a_\omega^{t+1}}{\partial s_c^t} + \epsilon_c^t b_\omega^t h'(s_c^t) + \epsilon_s^{t+1}b_{\phi}^{t+1} \\ &= \delta_\phi^{t+1} \frac{\partial \left( \sum_{i=1}^Iw_{i\phi}x_i^{t+1}+\sum_{h=1}^{H}w_{h\phi}b_h^{t}+\sum_{c=1}^Cw_{c\phi}s_c^{t} \right)}{\partial s_c^t} \\ &+ \delta_\iota^{t+1} \frac{\partial \left( \sum_{i=1}^Iw_{i\iota}x_i^{t+1}+\sum_{h=1}^{H}w_{h\iota}b_h^{t}+\sum_{c=1}^Cw_{c\iota}s_c^{t} \right)}{\partial s_c^t} \\ &+ \delta_\omega^t \frac{\partial \left( \sum_{i=1}^Iw_{i\omega}x_i^{t+1}+\sum_{h=1}^{H}w_{h\omega}b_h^{t}+ \sum_{c=1}^Cw_{c\omega}s_c^{t} \right)}{\partial s_c^t} \\ &+ \epsilon_c^t b_\omega^t h'(s_c^t) + \epsilon_s^{t+1}b_{\phi}^{t+1} \\ &= \epsilon_c^t b_\omega^t h'(s_c^t) + \epsilon_s^{t+1}b_{\phi}^{t+1} + \delta_\phi^{t+1}w_{c\phi} + \delta_\iota^{t+1} w_{c\iota} + \delta_\omega^t w_{c\omega} \\ \end{aligned}$
Cell输出（短时记忆）。
只需应用前向传播的 $(3.2)$ 式，即可得到：
$\begin{aligned} \delta_c^t &=\frac{\partial \mathcal{L}}{\partial a_c^t} =\frac{\partial \mathcal{L}}{\partial s_c^t}\frac{\partial s_c^t}{\partial a_c^t} \\ &=\epsilon_s^t \frac{\partial \left[b_\phi^t \cdot s_c^{t-1}\,+b_\iota^t \cdot g(a_c^t)\right] }{\partial a_c^t} \\ &=\epsilon_s^t b_\iota^tg'(a_c^t) \\ \end{aligned}$
遗忘门。方法同输出门推导，只需应用前向传播的 $(3.2)$ 式，可立即得到：
$\begin{aligned} \delta_\phi^t&= \frac{\partial \mathcal{L}}{\partial a_\phi^t} =\frac{\partial \mathcal{L}}{\partial b_\phi^t}\frac{\partial b_\phi^t}{\partial a_\phi^t} \\ &=\frac{\partial \mathcal{L}}{\partial b_\phi^t} f'(a_\phi^t) \\ &=f'(a_\phi^t) \frac{\partial \mathcal{L}}{\partial s_c^t} \frac{\partial s_c^t}{\partial b_\phi^t}\\ &= f'(a_\phi^t) \epsilon_s^t \frac{\partial s_c^t}{\partial b_\phi^t} \\ &= f'(a_\phi^t) \epsilon_s^t \frac{\partial \left[b_\phi^t s_c^{t-1} + b_\iota^{t} g(a_c^t)\right]}{\partial b_\phi^t} \\ &=f'(a_\phi^t)\sum_{c=1}^Cs_c^{t-1}\epsilon_s^t \end{aligned}$
输入门。方法同输出门，只需应用前向传播的 $(3.2)$ 式，即可得到：
$\begin{aligned} \delta_\iota^t&=\frac{\partial \mathcal{L}}{\partial a_\iota^t} =\frac{\partial \mathcal{L}}{\partial b_\iota^t}\frac{\partial b_\iota^t}{\partial a_\iota^t} \\ &=\frac{\partial \mathcal{L}}{\partial b_\iota^t} f'(a_\iota^t) \\ &=f'(a_\iota^t) \frac{\partial \mathcal{L}}{\partial s_c^t} \frac{\partial s_c^t}{\partial b_\iota^t}\\ &= f'(a_\iota^t) \epsilon_s^t \frac{\partial s_c^t}{\partial b_\iota^t} \\ &= f'(a_\iota^t) \epsilon_c^t \frac{\partial \left[b_\phi^t s_c^{t-1} + b_\iota^{t} g(a_c^t)\right]}{\partial b_\iota^t} \\ &=f'(a_\iota^t)\sum_{c=1}^Cg(a_c^t) \epsilon_s^t \end{aligned}$