长短时记忆网络（LSTM）

最新推荐文章于 2024-06-26 19:01:12 发布

161124

最新推荐文章于 2024-06-26 19:01:12 发布

阅读量2.3k

点赞数

文章标签：神经网络

原文链接：https://zybuluo.com/hanbingtao/note/581764

版权

长短时记忆网络LSTM

简介
RNN的结构缺陷
LSTM结构
长短时记忆网络的前向计算
总结

简介

LSTM长短期记忆网络（Long Short-Term Memory Networks）是一种RNN的变种结构。我们知道循环神经网络以及它的训练算法。我们也知道了循环神经网络很难训练的原因，这导致了它在实际应用中，很难处理长距离的依赖。所以诞生了这么一种改进之后的循环神经网络：长短时记忆网络(Long Short Term Memory Network, LSTM)它成功的解决了原始循环神经网络的缺陷，成为当前最流行的RNN，在语音识别、图片描述、自然语言处理等许多领域中成功应用。但不幸的一面是，LSTM的结构很复杂，因此，我们需要花上一些力气，才能把LSTM以及它的训练算法弄明白。

RNN的结构缺陷

循环神经网络（Recurrent Neural Network，RNN）是一种用于处理序列数据的神经网络。相比一般的神经网络来说，他能够处理序列变化的数据。比如某个单词的意思会因为上文提到的内容不同而有不同的含义，RNN就能够很好地解决这类问题。

RNN结构的特性是其共享一组(U，W，b)，不管你的RNN有多大，(U，W，b)都是同一组，那我们只有一组的话，在(U，W，b)不变的情况下，梯度在反向传播的过程中，不断连乘，数值不是越来越大就是越来越小。这样就出现了梯度爆炸或者梯度消失的情况，所以往往用RNN去训练模型得不到预期的结果。

在这里插入图片描述
我们就可以看到，从上图的t-3时刻开始，梯度已经几乎减少到0了。那么，从这个时刻开始再往之前走，得到的梯度（几乎为零）就不会对最终的梯度值有任何贡献，这就相当于无论t-3时刻之前的网络状态h是什么，在训练中都不会对权重数组W的更新产生影响，也就是网络事实上已经忽略了t-3时刻之前的状态。这就是原始RNN无法处理长距离依赖的原因。

LSTM结构

与RNN相比，LSTM的神经元还是基于输入x和上一级的隐藏层输出h来计算，只不过内部结构变了，也就是神经元的运算公式变了，而外部结构并没有任何变化，因此之前提及的RNN各种机构都能用LSTM来替换。

长短时记忆网络的思路就是：原始RNN的隐藏层只有一个状态，即h，它对于短期的输入非常敏感。那么，假如我们再增加一个状态，即c，让它来保存长期的状态，那么问题不就解决了么？如下图所示：
在这里插入图片描述
新增加的状态c，称为单元状态(cell state)。我们把上图按照时间维度展开：

上图仅仅是一个示意图，我们可以看出，在t时刻，LSTM的输入有三个：当前时刻网络的输入值Xt、上一时刻LSTM的输出值ht-1、以及上一时刻的单元状态ct-1；LSTM的输出有两个：当前时刻LSTM输出值ht、和当前时刻的单元状态ct。注意x、h、c都是向量。

LSTM的关键，就是怎样控制长期状态c。在这里，LSTM的思路是使用三个控制开关。第一个开关，负责控制继续保存长期状态c；第二个开关，负责控制把即时状态输入到长期状态c；第三个开关，负责控制是否把长期状态c作为当前的LSTM的输出。三个开关的作用如下图所示：
在这里插入图片描述
接下来，我们要描述一下，输出h和单元状态c的具体计算方法。

长短时记忆网络的前向计算

前面描述的开关是怎样在算法中实现的呢？这就用到了门（gate）的概念。门实际上就是一层全连接层，它的输入是一个向量，输出是一个0到1之间的实数向量。假设W是门的权重向量，b是偏置项，那么门可以表示为：
在这里插入图片描述
门的使用，就是用门的输出向量按元素乘以我们需要控制的那个向量。因为门的输出是0到1之间的实数向量，那么，当门输出为0时，任何向量与之相乘都会得到0向量，这就相当于啥都不能通过；输出为1时，任何向量与之相乘都不会有任何改变，这就相当于啥都可以通过。因为sigmoid函数的值域是(0,1)，所以门的状态都是半开半闭的。

LSTM用两个门来控制单元状态c的内容，一个是遗忘门（forget gate），它决定了上一时刻的单元状态ct-1有多少保留到当前时刻ct；另一个是输入门（input gate），它决定了当前时刻网络的输入xt有多少保存到单元状态ct。LSTM用输出门（output gate）来控制单元状态ct有多少输出到LSTM的当前输出值ht。

LSTM内部主要有三个阶段：

忘记阶段。这个阶段主要是对上一个节点传进来的输入进行选择性忘记。简单来说就是会 “忘记不重要的，记住重要的”。

具体来说是通过计算得到的zf（f表示forget）来作为忘记门控，来控制上一个状态的 ct-1 哪些需要留哪些需要忘。

选择记忆阶段。这个阶段将这个阶段的输入有选择性地进行“记忆”。主要是会对输入xt 进行选择记忆。哪些重要则着重记录下来，哪些不重要，则少记一些。当前的输入内容由前面计算得到的z 表示。而选择的门控信号则是由 zi（i代表information）来进行控制。

将上面两步得到的结果相加，即可得到传输给下一个状态的ct。也就是上图中的第一个公式。
3. 输出阶段。这个阶段将决定哪些将会被当成当前状态的输出。主要是通过 z0 来进行控制的。并且还对上一阶段得到的c0进行了放缩（通过一个tanh激活函数进行变化）。

与普通RNN类似，输出 yt往往最终也是通过 ht 变化得到。

总结

以上，就是LSTM的内部结构。通过门控状态来控制传输状态，记住需要长时间记忆的，忘记不重要的信息；而不像普通的RNN那样只能够“呆萌”地仅有一种记忆叠加方式。对很多需要“长期记忆”的任务来说，尤其好用。

引用：https://zybuluo.com/hanbingtao/note/581764

161124

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
长短时记忆网络（LSTM）

长短时记忆网络LSTM简介新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入简介你好！这是你第一次使用 M辑器所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown
复制链接

扫一扫