手搓GPT系列之 - 通过理解LSTM的反向传播过程，理解LSTM解决梯度消失的原理 - 逐条解释LSTM创始论文全部推导公式，配超多图帮助理解（下篇）

最新推荐文章于 2024-05-05 06:26:45 发布

马尔科夫司机

最新推荐文章于 2024-05-05 06:26:45 发布

阅读量2.4k

点赞数 5

分类专栏： nlp 文章标签： lstm 人工智能深度学习 nlp

本文链接：https://blog.csdn.net/marlinlm/article/details/131424667

版权

nlp 专栏收录该内容

13 篇文章 4 订阅

订阅专栏

本文承接上篇上篇在此和中篇中篇在此，继续就Sepp Hochreiter 1997年的开山大作 Long Short-term Memory 中APPENDIX A.1和A.2所载的数学推导过程进行详细解读。希望可以帮助大家理解了这个推导过程，进而能顺利理解为什么那几个门的设置可以解决RNN里的梯度消失和梯度爆炸的问题。中篇介绍了各个权重的误差更新算法。本篇将继续说明梯度信息在LSTM的记忆单元中经过一定的时间步之后如何变化，并由此证明LSTM可实现CEC（Constant Error Carousel）。本篇为整个文章的终章，也是最关键的一篇，因为此篇正是理解LSTM实现CEC的关键。一家之言，若有任何错漏欢迎大家评论区指正。好了，Dig in！

6. 误差流

我们将计算误差值在记忆单元上流过 $q$ 时间步之后（也称误差流error flow）的变化情况。

6.1 记忆单元输出点的误差值计算

已知记忆单元的计算公式：
$s_{c_j}(t) = s_{c_j}(t-1) + g(net_{c_j}(t)) y^{in_j}(t)$
我们使用截断求导规则来计算误差在时间步 $t - k$ 和 $t - k - 1$ 之间的变化情况：
$\begin{aligned} \frac{\partial s_{c_j}(t-k)}{\partial s_{c_j}(t-k-1)} &= 1 + \frac{\partial g(net_{c_j}(t-k))y^{in_j}(t-k)}{\partial s_{c_j}(t-k-1)}\\ &=1+ \frac{\partial y^{in_j}(t-k)}{\partial s_{c_j}(t-k-1)}g(net_{c_j}(t-k)) + \frac{\partial g(net_{c_j}(t-k))}{\partial s_{c_j}(t-k-1)}y^{in_j}(t-k)\\ &=1 + \sum_u[\frac{\partial y^{in_j}(t-k)}{\partial y^u(t-k-1)}\frac{\partial y^u(t-k-1)}{\partial s_{c_j}(t-k-1)}]g(net_{c_j}(t-k)) \\ &\quad + y^{in_j}(t-k)g'(net_{c_j}(t-k))\sum_u [\frac{\partial net_{c_j}(t-k)}{\partial y^u(t-k-1)}\frac{\partial y^u(t-k-1)}{\partial s_{c_j}(t-k-1)}]\\ &\approx_{tr} 1.\tag{30} \end{aligned}$

根据截断求导的规则，上式中的 $\frac{\partial y^{in_j}(t-k)}{\partial y^u(t-k-1)}$ 和 $\frac{\partial net_{c_j}(t-k)}{\partial y^u(t-k-1)}$ 都等于0。因此上式应用截断求导规则之后，最终结果等于1。上边这个式子有两个累加符号 $\sum_u$ 可能会让人感到迷惑，按照我们一般的理解，应用链式求导规则，
$\frac{\partial y^{in_j}(t-k)}{\partial s_{c_j}(t-k-1)}=\frac{\partial y^{in_j}(t-k)}{\partial y^u(t-k-1)}\frac{\partial y^u(t-k-1)}{\partial s_{c_j}(t-k-1)},$ 为什么这里是
$\frac{\partial y^{in_j}(t-k)}{\partial s_{c_j}(t-k-1)}=\sum_u[\frac{\partial y^{in_j}(t-k)}{\partial y^u(t-k-1)}\frac{\partial y^u(t-k-1)}{\partial s_{c_j}(t-k-1)}].$

为了解释这个情况，我们需要先看一下下边从 $y^{in_j}(t-k)$ 到 $s_{c_j}(t-k-1)$ 的误差传播路径示意图：

在这里插入图片描述
我们把传播路径上的各个节点展开一下（如下图所示），这里边 $y^{in_j}(t-k)$ 和 $s_{c_j}(t-k-1)$ 所属的向量长度是一样的， $y^u(t-k-1)$ 所属向量的长度与其他两个不同。

上图分别显示了 $\frac{\partial y^{in_j}(t-k)}{\partial y^u(t-k-1)}$ 及 $\frac{\partial y^u(t-k-1)}{\partial s_{c_j}(t-k-1)}$ 的现实含义。从上图可以看出，在给定 $c_j$ 和 $in_j$ 值的情况下，由于大部分的 $y^u(t-k-1)$ 的单元和 $s_{c_j}$ 节点连接。因此当且仅当 $u=c_j$ 时， $\frac{\partial y^{in_j}(t-k)}{\partial y^u(t-k-1)}\frac{\partial y^u(t-k-1)}{\partial s_{c_j}(t-k-1)} \ne 0$ 。所以我们有：
$\sum_u[\frac{\partial y^{in_j}(t-k)}{\partial y^u(t-k-1)}\frac{\partial y^u(t-k-1)}{\partial s_{c_j}(t-k-1)}]= \frac{\partial y^{in_j}(t-k)}{\partial y^{c_j}(t-k-1)}\frac{\partial y^{c_j}(t-k-1)}{\partial s_{c_j}(t-k-1)}$
同理可得：
$\sum_u [\frac{\partial net_{c_j}(t-k)}{\partial y^u(t-k-1)}\frac{\partial y^u(t-k-1)}{\partial s_{c_j}(t-k-1)}]=\frac{\partial net_{c_j}(t-k)}{\partial y^{c_j}(t-k-1)}\frac{\partial y^{c_j}(t-k-1)}{\partial s_{c_j}(t-k-1)}$
我们用 $v_j(t)$ 表示 $t$ 时刻从记忆单元输出点的误差信号， $v_i(t)$ 表示隐藏单元的误差信号， $v_k(t)$ 表示输出单元的误差信号。如下图所示：
在这里插入图片描述

我们可以如此定义 $v_j(t)$ ：
$v_j(t):=\sum_kw_{kc_j}v_k(t+1) + \sum_iw_{ic_j}v_i(t+1)$
原文中采用了一种更加通用的表达方式，即使用 $i:\ i\ no\ gate\ and\ no\ memory\ cell$ 同时代表上式中的 $k, i$ 。我们可以将上式改写为原文中的形式：
$v_j(t):=\sum_{i:\ i\ no\ gate\ and\ no\ memory\ cell}w_{ic_j}v_i(t+1)\tag{31}.$
由于这个表示会跟隐藏单元误差信号的标识冲突，所以我们把式31重新写成：
$v_j(t):=\sum_{u:\ u\ no\ gate\ and\ no\ memory\ cell}w_{uc_j}v_u(t+1).\tag{31*}$

6.2 输出门的误差值计算

此时我们可以计算 $t$ 时刻，输出门得到的误差值 $v_{out_j}(t)$ ，该误差值的设定为处于 $net_{out_j}$ 处，如下图所示：
在这里插入图片描述
$\begin{aligned} v_{out_j}(t) &\approx_{tr} \frac{\partial y^{c_j(t)}}{\partial net_{out_j}(t)}v_j(t)\\ &\approx_{tr}\frac{\partial y^{c_j(t)}}{\partial y^{out_j}(t)} \frac{\partial y^{out_j}(t)}{\partial net_{out_j}(t)}v_j(t)\tag{32}. \end{aligned}$

6.3 CEC的误差值计算

我们现在来计算在 $t$ 时刻传播到记忆单元内部的 $s_{c_j}$ 处的误差值。误差值传播路径示意图：
在这里插入图片描述
为了便于理解，我们把上边这个传播路径按时间顺序展开一下：

从上图我们可以明显地看出来，因为 $s_{c_j}(t)$ 同时作为两个分支的输入，因此 $v_{s_{c_j}}(t)$ 等于两个分支传过来的误差值之和：
$v_{s_{c_j}}(t) = \frac{\partial s_{c_j}(t+1)}{\partial s_{c_j}(t)}v_{s_{c_j}}(t+1) + \frac{\partial y^{c_j}(t)}{\partial s_{c_j}(t)}v_j(t)\tag{33}.$

6.4 CEC之间的误差流

接下来算一个中间公式，后边有用：
$\begin{aligned} \frac{\partial v_j(t)}{\partial v_{s_{c_j}}(t+1)}&= \frac{\partial \sum_u w_{ic_j}v_i(t+1)}{\partial v_{s_{c_j}}(t+1)}&(代入式31*)\\ &=\sum_u w_{uc_j}\frac{\partial v_u(t+1)}{\partial v_{s_{c_j}}(t+1)}\\ &=0\tag{34}. \end{aligned}$

为什么 $\sum_u w_{uc_j}\frac{\partial v_u(t+1)}{\partial v_{s_{c_j}}(t+1)}=0$ 呢？我们用 $v_{y^u}(t)$ 来表示 $t$ 时刻传导到 $y^u$ 处的误差值，我们把LSTM模型按时间展开一下：
在这里插入图片描述

由于：
$\sum_{u:\ u\ no\ gate\ no\ memory\ cell} w_{uc_j}v_u(t+1)=\sum_{i} w_{ic_j}v_i(t+1) + \sum_{k} w_{kc_j}v_i(t+1)$
可得：
$\sum_u w_{uc_j}\frac{\partial v_u(t+1)}{\partial v_{s_{c_j}}(t+1)}=\sum_{i}\frac{w_{ic_j}\partial v_i(t+1)}{\partial v_{s_{c_j}}(t+1)} + \sum_{k} \frac{w_{kc_j}\partial v_k(t+1)}{\partial v_{s_{c_j}}(t+1)}$
通过上图，我们容易看出， $v_i(t+1)$ 与 $v_{s_{c_j}}(t+1)$ 互相独立，且 $v_k(t+1)$ 与 $v_{s_{c_j}}(t+1)$ 互相独立，因此 $\frac{w_{ic_j}\partial v_i(t+1)}{\partial v_{s_{c_j}}(t+1)}=0, \forall i$ ，且 $\frac{w_{kc_j}\partial v_k(t+1)}{\partial v_{s_{c_j}}(t+1)}=0, \forall k$ 。所以式子34得证。

此时我们来计算时刻 $t + 1$ 流入 $s_{c_j}$ 的误差值对 $t$ 时刻，流入 $s_{c_j}$ 的误差值的影响：
$\begin{aligned} \frac{\partial v_{s_{c_j}}(t)}{\partial v_{s_{c_j}}(t+1)} &= \frac{\frac{\partial s_{c_j}(t+1)}{\partial s_{c_j}(t)}\partial v_{s_{c_j}}(t+1)}{\partial v_{s_{c_j}}(t+1)} + \frac{\frac{\partial y^{c_j}(t)}{\partial s_{c_j}(t)}\partial v_j(t)}{\partial v_{s_{c_j}}(t+1)}&（代入式33）\\ &=\frac{\partial s_{c_j}(t+1)}{\partial s_{c_j}(t)}& （代入式34）\\ &\approx_{tr}1&（代入式30）\tag{35}. \end{aligned}$

式35意味着：
$v_{s_{c_j}}(t) = v_{s_{c_j}}(t+1) + C.$
记忆单元内部的误差值是恒定的，或者说， $t + 1$ 时刻，流到 $v_{s_{c_j}}$ 的误差值是多少，再往上流到 $t$ 时刻的 $v_{s_{c_j}}$ 那里，就还是多少。（这是最理想的情况，我们这个模型还有一个 $C$ ）。

6.5 记忆单元的误差值计算

记忆单元输入处的误差值 $v_{c_j}(t)$ 为：
$v_{c_j}(t)=\frac{\partial g(net_{c_j}(t))}{\partial net_{c_j}(t)}\frac{\partial s_{c_j}(t)}{\partial g(net_{c_j}(t))}v_{s_{c_j}}(t)\tag{36}.$
这个公式太简单了，不需要再进一步解释。我们放个误差流的示意图用以说明上式所说的标记的位置：
在这里插入图片描述

6.6 输入门的误差值计算

$v_{in_j}(t)\approx_{tr}\frac{\partial y^{in_j}(t)}{\partial net_{in_j}(t)}\frac{\partial s_{c_j}(t)}{\partial y_{in_j}(t)}v_{s_{c_j}}(t)\tag{37}.$
误差值传播示意图：
在这里插入图片描述

6.7 外部误差流的计算

在 $t + 1$ 时刻，各个门或记忆单元（记为 $l$ ）的误差值 $v_l(t+1)$ ，沿着 $w_{lv}$ 传播到上一个时间时刻 $t$ 的某一个记忆单元、门、输出单元或者隐藏单元（记为 $v$ ）中去，这就叫外部误差流（external error flow），我们计算一下任何节点 $v$ 在 $t$ 时刻收到的外部误差值（记为 $v_v^e(t)$ ）：
$\begin{aligned} v_v^e(t) &= \frac{\partial y^v(t)}{\partial net_v(t)}\sum_l \frac{\partial net_l(t+1)}{\partial y^v(t)}v_l(t+1)\tag{38}\\ &= \frac{\partial y^v(t)}{\partial net_v(t)}( \frac{\partial net_{out_j}(t+1)}{\partial y^v(t)}v_{out_j}(t+1)+ \frac{\partial net_{in_j}(t+1)}{\partial y^v(t)}v_{in_j}(t+1) + \frac{\partial net_{c_j}(t+1)}{\partial y^v(t)} \end{aligned}$
可以通过下图理解外部误差的传播路径：
在这里插入图片描述

此时我们可以得到外部误差与记忆单元 $v_v^e(t-1)$ 与 $v_j(t)$ 的关系，先看下边的传播路径示意图理解一下这个公式想计算的是什么东西，我们这里为了便于理解，只画出 $v=in_j$ 的情况：
在这里插入图片描述

$\begin{aligned} \frac{\partial v_v^e(t-1)}{\partial v_j(t)}&= \frac{\partial y^v(t-1)}{\partial net_v(t-1)}( \frac{\partial v_{out_j}(t)}{\partial v_j(t)}\frac{\partial net_{out_j}(t)}{\partial y^v(t-1)}+ \frac{\partial v_{in_j}(t)}{\partial v_j(t)}\frac{\partial net_{in_j}(t)}{\partial y^v(t-1)} + \frac{\partial v_{c_j}(t)}{\partial v_j(t)}\frac{\partial net_{c_j}(t)}{\partial y^v(t-1)}) \\ &\approx_{tr}0\tag{39}. \end{aligned}$
根据截断求导规则，上式中的 $\frac{\partial net_{out_j}(t)}{\partial y^v(t-1)}\approx_{tr}0$ ， $\frac{\partial net_{in_j}(t)}{\partial y^v(t-1)}\approx_{tr}0$ ， $\frac{\partial net_{c_j}(t)}{\partial y^v(t-1)}\approx_{tr}0$ ，因此上式应用截断求导之后为0。

上式的意义就在于，证明了应用截断规则后，从记忆单元出口处的误差值，不会经由 $in_j,out_j,c_j$ 传播到其他任何门和单元。（其实用眼睛看也可以一眼看出来）

6.8 记忆单元内部的误差流计算

最后，让我们来关注从记忆单元出口处的误差，传递到记忆单元内的CEC的情况。这也是整个模型中唯一的错误信息会跨时间步传递的误差流。
给定时间步 $q$ ，我们计算 $\frac{\partial v_{s_{c_j}}(t-q)}{\partial v_j(t)}$ ：
当 $q = 0$ 时，我们可以看下图的误差传播路径：
在这里插入图片描述
根据上图，容易得到：
$\begin{aligned} \frac{\partial v_{s_{c_j}}(t-q)}{\partial v_j(t)}&=\frac{\partial v_{s_{c_j}}(t)}{\partial v_j(t)}=\frac{\partial y^{c_j}(t)}{\partial s_{c_j}(t)} \end{aligned}$
当 $q = 1$ 时，误差传播路径如下图所示（隐藏了无关的单元，只保留记忆单元）：
在这里插入图片描述

$\begin{aligned} \frac{\partial v_{s_{c_j}}(t-q)}{\partial v_j(t)}&=\frac{\partial v_{s_{c_j}}(t-1)}{\partial v_j(t)}\\ &\approx_{tr}\frac{\partial v_j(t)\frac{\partial y^{c_j}(t)}{\partial s_{c_j}(t)}\frac{\partial s_{c_j}(t)}{\partial s_{c_j}(t-1)}}{\partial v_j(t)}\\ &\approx_{tr}\frac{\partial y^{c_j}(t)}{\partial s_{c_j}(t)}\frac{\partial s_{c_j}(t)}{\partial s_{c_j}(t-1)}\\ &\approx_{tr}\frac{\partial s_{c_j}(t)}{\partial s_{c_j}(t-1)}\frac{\partial v_{s_{c_j}}(t)}{\partial v_j(t)} \end{aligned}$
当 $q > 1$ 时：
在这里插入图片描述

$\begin{aligned} \frac{\partial v_{s_{c_j}}(t-q)}{\partial v_j(t)}&\approx_{tr}\frac{\partial v_j(t)\frac{\partial y^{c_j}(t)}{\partial s_{c_j}(t-q+1)}\frac{\partial s_{c_j}(t-q+1)}{\partial s_{c_j}(t-q)}}{\partial v_j(t)}\\ &\approx_{tr}\frac{\partial y^{c_j}(t)}{\partial s_{c_j}(t-q+1)}\frac{\partial s_{c_j}(t-q+1)}{\partial s_{c_j}(t-q)}\\ &\approx_{tr}\frac{\partial v_{s_{c_j}}(t-q+1)}{\partial v_j(t)}\frac{\partial s_{c_j}(t-q+1)}{\partial s_{c_j}(t-q)} \end{aligned}$

因此我们可得：
$\frac{\partial v_{s_{c_j}}(t-q)}{\partial v_j(t)}\approx_{tr} \begin{cases} \frac{\partial y^{c_j}(t)}{\partial s_{c_j}(t)} &(q=0)\\ \frac{\partial s_{c_j}(t-q+1)}{\partial s_{c_j}(t-q)}\frac{\partial v_{s_{c_j}}(t-q+1)}{\partial v_j(t)}&(q>0) \end{cases}\tag{40}.$

将式40扩展为计算记忆节点在时刻 $t$ 的误差值，传播到 $t - q$ 时刻任意节点 $v$ 时的误差，误差传播路经如下图所示：
在这里插入图片描述
从上图可知在 $t - q$ 时刻，只有 $net_{in_j}$ ， $net_{c_j}$ 处，即 $v\in\{in_j,c_j\}$ 时，可以得到 $v_j(t)$ 传过来的非零误差。其他位置都是0。我们标记任意节点 $v$ 在 $t - q$ 时刻收到的误差信息为 $v_v(t-q)$ ，我们计算 $t$ 时刻记忆单元出口处与 $v_v(t-q)$ 之间的误差流：
$\begin{aligned} \frac{\partial v_v(t-q)}{\partial v_j(t)}&\approx_{tr}\frac{\partial v_v(t-q)}{\partial v_{s_{c_j}}(t-q)}\frac{\partial v_{s_{c_j}}(t-q)}{\partial v_j(t)}\\ &\approx_{tr} \frac{\partial v_v(t-q)}{\partial v_{s_{c_j}}(t-q)}\frac{\partial s_{c_j}(t-q+1)}{\partial s_{c_j}(t-q)}\frac{\partial v_{s_{c_j}}(t-q+1)}{\partial v_j(t)}\\ &\approx_{tr} \frac{\partial v_v(t-q)}{\partial v_{s_{c_j}}(t-q)}(\frac{\partial s_{c_j}(t-q+1)}{\partial s_{c_j}(t-q)}\frac{\partial s_{c_j}(t-q+2)}{\partial s_{c_j}(t-q+1)}\frac{\partial s_{c_j}(t-q+3)}{\partial s_{c_j}(t-q+2)}\cdots\frac{\partial s_{c_j}(t+1)}{\partial s_{c_j}(t)})\frac{\partial v_{s_{c_j}}(t)}{\partial v_j(t)}\\ &\approx_{tr}\frac{\partial v_v(t-q)}{\partial v_{s_{c_j}}(t-q)}(\prod_{m=0}^q\frac{\partial s_{c_j}(t-m+1)}{\partial s_{c_j}(t-m)})\frac{\partial v_{s_{c_j}}(t)}{\partial v_j(t)}\\ &\approx_{tr}\frac{\partial v_v(t-q)}{\partial v_{s_{c_j}}(t-q)}\frac{\partial v_{s_{c_j}}(t)}{\partial v_j(t)}\\ &\approx_{tr}y^{out_j}(t)h'(s_{c_j}(t)) \begin{cases} g'(net_{c_j}(t-q))y^{in_j}(t-q)&v=c_j\\ g(net_{c_j}(t-q))f'_{in_j}(net_{in_j}(t-q)) &v=in_j\\ 0&Otherwise \end{cases}\tag{41}. \end{aligned}$

通过上式可以看出，误差流的变化只有分别与 $t$ 和 $t - q$ 时刻有关，在不同时间步之间流经CEC时未受影响。最后Sepp Hochreiter指出以下几点：

$y^{out_j}(t)$ 可以在误差流进入记忆单元之前就缩小误差值。也会在之后的训练步骤中降低记忆单元产生的误差值。
根据式35可知， $v_{s_{c_j}}(t) = v_{s_{c_j}}(t+1) + C$ ，因此随着时间步数的增加， $s_{c_j}$ 会出现漂移的情况，如果 $s_{c_j}(t)$ 产生一个大值（大正值或大负值），该值会被 $h'(s_{c_j}(t))$ 截断。同时，也可通过给 $in_j$ 设置适当的偏移量来优化该问题（现在我们通过增加遗忘门解决该问题，这个遗忘门也成为新的标准LSTM模型的一部分）。
如果我们给 $in_j$ 设置了用与抗衡 $s_{c_j}$ 漂移的反向偏移值，那么会导致 $y^{in_j}(t-q)$ 和 $net_{in_j}(t-q))$ 的值变小，这样的影响对比放任 $s_{c_j}$ 漂移的影响来说微不足道。

总之一句话，LSTM模型比没有记忆单元的RNN模型好很多。

由于文章太长，我把整个文章分为上中下三篇，本篇为最后一篇。
上篇：上篇在此
中篇：中篇在此
下篇：下篇在此

马尔科夫司机

关注

5
点赞
踩
3

收藏

觉得还不错? 一键收藏
4
评论
手搓GPT系列之 - 通过理解LSTM的反向传播过程，理解LSTM解决梯度消失的原理 - 逐条解释LSTM创始论文全部推导公式，配超多图帮助理解（下篇）

本文继续就Sepp Hochreiter 1997年的开山大作 Long Short-term Memory 中APPENDIX A.1和A.2所载的数学推导过程进行详细解读。希望可以帮助大家理解了这个推导过程，进而能顺利理解为什么那几个门的设置可以解决RNN里的梯度消失和梯度爆炸的问题。中篇介绍了各个权重的误差更新算法。本篇将继续说明梯度信息在LSTM的记忆单元中经过一定的时间步之后如何变化，并由此证明LSTM可实现CEC（Constant Error Carousel）。本篇为整个文章最关键一篇。
复制链接

扫一扫