RNN初探——LSTM

最新推荐文章于 2022-10-27 20:06:35 发布

NSDL

最新推荐文章于 2022-10-27 20:06:35 发布

阅读量800

点赞数

分类专栏：循环神经网络文章标签： RNN 循环神经网络 LSTM

本文链接：https://blog.csdn.net/Abrohambaby/article/details/56480520

版权

循环神经网络专栏收录该内容

2 篇文章 0 订阅

订阅专栏

wiki百科：递归神经网络（RNN）是两种人工神经网络的总称。一种是时间递归神经网络（recurrent neural network），另一种是结构递归神经网络（recursive neural network）。

我们一般所说的RNN就是第一种，时间递归神经网络，又名循环神经网络。它与传统的神经网络最大的差别之处就在于，它隐藏层之间的节点不再是无连接的，而是有连接的。每次的输入不再只有输入层还包括了上个时间节点隐藏层本身的输入。

下图是一个RNN展开的图片（本篇博客的图片部分借用网上已给出的结构图）：

为了便于理解，将一个RNN按时间节点展开为一个链式结构，每个x都是不同时间节点的输入，而h都是不同时间节点的输出，可以很明显的看出每个时间节点的RNN都是接受了当前时间节点的输入在加上了上个时间节点的输出。这种结构可以很好的解决许多传统神经网络无法解决的问题，例如：时间序列的关联问题等。

但是不可否认，RNN依然还有着缺点，例如：无法解决长时依赖问题，还有梯度消失或爆炸的问题。RNN的关键点之一就是它可以用来连接先前的信息到当前的任务上，例如使用过去的视频段来推测对当前段的理解，这使得RNN变得非常有用。但当我们试着去预测一段非常长的文字时，需要先前提到的离当前位置很远上下文。这说明相关信息和当前预测位置之间的间隔就肯定变得相当的大。在这种情况下就出现了长时依赖问题，如果无法解决，则预测模型会因为上下文时间过长而忘记，从而无法达到预测的目的。而梯度消失和梯度爆炸的产生是因为RNN本身tanh函数造成的，由于求导的链式法则，不断的削弱数值或者不断增大使得梯度消失或者爆炸。梯度消失是RNN中一个非常严重的问题，梯度消失会使得整个模型无法正常使用，达不到预测效果。

为了解决以上两个问题，一个基于RNN的模型被提出——LSTM（长短记忆模型）