理解LSTM

最新推荐文章于 2022-11-04 10:34:48 发布

weixin_37958272

最新推荐文章于 2022-11-04 10:34:48 发布

阅读量276

点赞数

分类专栏：经典模型文章标签：神经网络深度学习自然语言处理

原文链接：https://www.jianshu.com/p/95d5c461924c

版权

经典模型专栏收录该内容

14 篇文章 0 订阅

订阅专栏

理解LSTM

循环神经网络（Recurrent Neural Networks）

人对一个问题的思考不会完全从头开始。比如你在阅读本片文章的时，你会根据之前理解过的信息来理解下面看到的文字。在理解当前文字的时候，你并不会忘记之前看过的文字，从头思考当前文字的含义。

传统的神经网络并不能做到这一点，这是在对这种序列信息（如语音）进行预测时的一个缺点。比如你想对电影中的每个片段去做事件分类，传统的神经网络是很难通过利用前面的事件信息来对后面事件进行分类。

而循环神经网络（下面简称RNNs）可以通过不停的将信息循环操作，保证信息持续存在，从而解决上述问题。RNNs如下图所示

在这里插入图片描述

可以看出A是一组神经网络（可以理解为一个网络的自循环），它的工作是不停的接收 $x_t$ 并且输出 $h_t$ 。从图中可以看出A允许将信息不停的再内部循环，这样使得它可以保证每一步的计算都保存以前的信息。

这样讲可能还是有点晕，更好的理解方式，也是很多文章的做法，将RNNs的自循环结构展开，像是将同一个网络复制并连成一条线的结构，将自身提取的信息传递给下一个继承者，如下图所示。

在这里插入图片描述
假设现在有个更为复杂的任务，考虑到下面这句话“I grew up in France… I speak fluent French.”，现在需要语言模型通过现有以前的文字信息预测该句话的最后一个字。通过以前文字语境可以预测出最后一个字是某种语言，但是要猜测出French，要根据之前的France语境。这样的任务，不同之前，因为这次的有用信息与需要进行处理信息的地方之间的距离较远，这样容易导致RNNs不能学习到有用的信息，最终推导的任务可能失败。如下图所示。

在这里插入图片描述

理论上RNNs是能够处理这种“长依赖”问题的。通过调参来解决这种问题。但是在实践过程中RNNs无法学习到这种特征。[Hochreiter (1991) German] 和Bengio, et al. (1994)深入研究过为什么RNNs没法学习到这种特征。

幸好LSTMs这种特殊的RNNs是没有这个问题的

LSTM 网络

Long Short Term Memory networks（以下简称LSTMs），一种特殊的RNN网络，该网络设计出来是为了解决长依赖问题。该网络由 Hochreiter & Schmidhuber (1997)引入，并有许多人对其进行了改进和普及。他们的工作被用来解决了各种各样的问题，直到目前还被广泛应用。

所有循环神经网络都具有神经网络的重复模块链的形式。在标准的RNN中，该重复模块将具有非常简单的结构，例如单个tanh层。标准的RNN网络如下图所示

在这里插入图片描述

LSTMs也具有这种链式结构，但是它的重复单元不同于标准RNN网络里的单元只有一个网络层，它的内部有四个网络层。LSTMs的结构如下图所示。

在这里插入图片描述

在解释LSTMs的详细结构时先定义一下图中各个符号的含义，符号包括下面几种

在这里插入图片描述

图中黄色类似于CNN里的激活函数操作，粉色圆圈表示点操作，单箭头表示数据流向，箭头合并表示向量的合并（concat）操作，箭头分叉表示向量的拷贝操作

LSTMs的核心思想

LSTMs的核心是细胞状态，用贯穿细胞的水平线表示。

细胞状态像传送带一样。它贯穿整个细胞却只有很少的分支，这样能保证信息不变的流过整个RNNs。细胞状态如下图所示

在这里插入图片描述

LSTM网络能通过一种被称为门的结构对细胞状态进行删除或者添加信息。

门能够有选择性的决定让哪些信息通过。其实门的结构很简单，就是一个sigmoid层和一个点乘操作的组合。如下图所示

在这里插入图片描述

因为sigmoid层的输出是0-1的值，这代表有多少信息能够流过sigmoid层。0表示都不能通过，1表示都能通过。

一个LSTM里面包含三个门来控制细胞状态。

一步一步理解LSTM

前面提到LSTM由三个门来控制细胞状态，这三个门分别称为忘记门、输入门和输出门。下面一个一个的来讲述。

LSTM的第一步就是决定细胞状态需要丢弃哪些信息。这部分操作是通过一个称为忘记门的sigmoid单元来处理的。它通过查看 $h_{t-1}$ 和 $x_t$ 信息来输出一个0-1之间的向量，该向量里面的0-1值表示细胞状态 $C_{t-1}$ 中的哪些信息保留或丢弃多少。0表示不保留，1表示都保留。忘记门如下图所示。

在这里插入图片描述

下一步是决定给细胞状态添加哪些新的信息。这一步又分为两个步骤，首先，利用 $h_{t-1}$ 和 $x_t$ 通过一个称为输入门的操作来决定更新哪些信息。然后利用 $h_{t-1}$ 和 $x_t$ 通过一个tanh层得到新的候选细胞信息 $\widetilde{C}_t$ ，这些信息可能会被更新到细胞信息中。这两步描述如下图所示。

在这里插入图片描述

下面将更新旧的细胞信息 $C_{t-1}$ ，变为新的细胞信息 $C_t$ 。更新的规则就是通过忘记门选择忘记旧细胞信息的一部分，通过输入门选择添加候选细胞信息 $\widetilde{C}_t$ 的一部分得到新的细胞信息 $C_t$ 。更新操作如下图所示

在这里插入图片描述

更新完细胞状态后需要根据输入的 $h_{t-1}$ 和 $x_t$ 来判断输出细胞的哪些状态特征，这里需要将输入经过一个称为输出门的sigmoid层得到判断条件，然后将细胞状态经过tanh层得到一个-1~1之间值的向量，该向量与输出门得到的判断条件相乘就得到了最终该RNN单元的输出。该步骤如下图所示

在这里插入图片描述

还是拿语言模型来举例说明，在预测动词形式的时候，我们需要通过输入的主语是单数还是复数来推断输出门输出的预测动词是单数形式还是复数形式。

weixin_37958272

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
理解LSTM

理解LSTM循环神经网络（Recurrent Neural Networks）人对一个问题的思考不会完全从头开始。比如你在阅读本片文章的时，你会根据之前理解过的信息来理解下面看到的文字。在理解当前文字的时候，你并不会忘记之前看过的文字，从头思考当前文字的含义。传统的神经网络并不能做到这一点，这是在对这种序列信息（如语音）进行预测时的一个缺点。比如你想对电影中的每个片段去做事件分类，传统的神经网络是很难通过利用前面的事件信息来对后面事件进行分类。而循环神经网络（下面简称RNNs）可以通过不停的将信息循
复制链接

扫一扫