小袁讲长短期记忆网络（LSTM）

最新推荐文章于 2024-08-06 01:32:32 发布

maisuiqianxun

最新推荐文章于 2024-08-06 01:32:32 发布

阅读量1.3k

点赞数 2

本文链接：https://blog.csdn.net/maisuiqianxun/article/details/103375055

版权

一，什么是长短期

LSTM全名“ Long Short-term Memory”，中文名翻译为长短期记忆网络。小袁我刚接触这个网络的时候，一度以为长短期记忆网络既可以建模序列问题中的长期时间依赖，又可以有效地捕捉到序列数据的短期时间依赖，因而被命名为长短期记忆网络。事实上这样理解对也不对，对在LSTM确实既有捕捉序列数据的长的时间依赖，又有捕捉短的时间依赖的特性上。不对在LSTM的特性并不像我们通俗理解的长短期。英文表达而言就是“Long Short-term Memory” 和 “Long Short term Memory”的差别吧。这篇博客我会重点讲下我对“长短期”的理解，如有不正确的地方还望各位不吝指教！

注：本博客部分图片公式来源于网络，侵删。转载请注明出处！

1.1 为何会有LSTM

据各路文献博客所言，LSTM的提出是为了解决循环神经网络（RNN）无法捕捉序列的长期时间依赖的不足，RNN的核心状态更新公式为
$h_t=f(W^ix_t + W^hh_{t-1})$
其中, $h_t$ 为RNN网络的隐藏层在时刻 $t$ 的状态值， $f ()$ 为RNN网络的激活函数，通常为 $t a n h$ 函数。

RNN的一种网络拓扑结构如下图所示：
在这里插入图片描述
由于第 $t$ 时刻block内（上图中的绿框）的输入仅为上一时刻 $t - 1$ 的状态值 $h_{t-1}$ 和当前时刻的输入 $x_t$ ,因而RNN无法捕捉到序列数据的长期依赖，仅能捕捉到序列数据的短期依赖，这导致了RNN网络在建模上的天然不足。

事实上，对RNN的这种理解是不对的。 这种有失偏颇的理解会进一步给自己理解LSTM带来困难。上述理解主要问题在于第 $t$ 时刻block内（上图中的绿框）的输入之一 $h_{t-1}$ 不是一个独立的变量，它的值通过 $h_{t-2}$ 和 $x_{t-1}$ 计算得到（即 $h_{t-1}$ 包含 $h_{t-2}$ 的特征信息）。递归地， $h_t$ 包含 $t = 1, 2, . . ., t - 1$ 的所有隐藏层的状态特征，因而RNN事实上是有建模长期时间依赖的能力的。既然如此，那为何会有RNN无法捕捉长期的序列时间依赖关系的说法呢？所谓无风不起浪啊。事实上，这个可以用“理想很丰满，现实很骨干”来比喻。尽管RNN能够完美的建模序列数据的长期依赖关系，但是它没法用啊，因为传统的RNN非常容易陷入梯度消失或梯度爆炸问题，这导致了RNN网络在实际使用中，无法捕捉到序列的长期依赖关系。事实上相应的长短期记忆网络LSTM也是因为它在实际应用中能够巧妙地避免梯度消失或梯度爆炸问题，使得它能够捕捉到长期的序列时间依赖关系。简言之，LSTM的提出是为了克服在实际应用中 ，RNN建模的长期时间依赖关系无法通过梯度优化的不足。

1.2 谈谈RNN的梯度消失和梯度爆炸

关于RNN的梯度消失和梯度爆炸问题，参考了知乎文章 ,并结合评论和我的理解做了部分修正。具体细节如下所示：

定义参数优化的损失函数
$L=\sum_{t=0}^{T}L_{t}$
则损失函数 $L$ 对参数矩阵 $W$ 的偏导数为
$\frac{\partial L}{\partial W} =\sum_{t=0}^{T}\frac{\partial L_t}{\partial W}$
现考虑 $t$ 时刻的损失函数误差对输出矩阵 $W^o$ ，隐藏层矩阵 $W^h$ ，输入矩阵 $W^i$ 的偏导数，它们依次为
$\frac{\partial L_t}{\partial W^o} =\frac{\partial L_t}{\partial y_t}\frac{\partial y_t}{\partial W^o}$

$\frac{\partial L_t}{\partial W^h} =\sum_{k=0}^{t}\frac{\partial L_t}{\partial y_t}\frac{\partial y_t}{\partial h_t}(\prod_{i=k+1}^{t}\frac{\partial h_i}{\partial h_{i-1}})\frac{\partial h_{k}}{\partial W^h}$

$\frac{\partial L_t}{\partial W^i} =\sum_{k=0}^{t}\frac{\partial L_t}{\partial y_t}\frac{\partial y_t}{\partial h_t}(\prod_{i=k+1}^{t}\frac{\partial h_i}{\partial h_{i-1}})\frac{\partial h_{k}}{\partial W^i}$