深度学习模型之LSTM（都能理解的LSTM原理详解）

最新推荐文章于 2023-12-02 17:10:41 发布

不吐桔子皮

最新推荐文章于 2023-12-02 17:10:41 发布

阅读量1w

点赞数 4

分类专栏：深度学习 NLP 人工智能文章标签：深度学习人工智能循环神经网络 lstm

本文链接：https://blog.csdn.net/ai_xiao_cai_niao/article/details/106642066

版权

人工智能同时被 3 个专栏收录

6 篇文章 0 订阅

订阅专栏

NLP

5 篇文章 1 订阅

订阅专栏

深度学习

2 篇文章 0 订阅

订阅专栏

在介绍LSTM之前，先介绍一下RNN，方便对比理解。

一、循环神经网络（Recurrent Neural Network，RNN）

循环神经网络（Recurrent Neural Network，RNN）相比一般的神经网络来说，他能够处理序列变化的数据。比如某个单词的意思会因为上文提到的内容不同而有不同的含义，那么RNN就能解决这类问题。来看一个简单的例子，对于RNN来说，对于输入的一句话，它的每一个单词输入完已有会存到一个记忆单元里面（图中蓝色的方框）参与下一个单词的输入，需要注意的是这是同一个神经网络，只不过是在三个不同的时间点被使用了三次。
（注：以下图片来自李宏毅老师的ppt）
在这里插入图片描述
那么我们其实就可以发现，这种网络结构，前一个单词会影响后一个单词的输出，比如下面的例子，leave Taipei和arrive Taipei，同样都是Taipei，但是一个是到达，一个是离开，所以两个Taipei的输出是不同的。

RNN当然可以有多层结构，如图：
在这里插入图片描述
同时，还有RNN的变体，比如刚才我们介绍的普通RNN就是Elman Network，那么还有Jordan Network，把上一个时间点的输出值在下一个时间点读进来，如图：

还有双向RNN，读取方向可以是正向和逆向两个network，把它们接到同一个output，这种双向的好处就是可以看到整个句子的信息，而不仅仅是句子的前面。
在这里插入图片描述

二、长短期记忆（Long short-term memory, LSTM）

LSTM就是一种特殊的RNN，它可以解决梯度消失的问题（第三部分介绍原因），但是不会解决梯度爆炸的问题。我们来看一下它的结构，在下图中，如果想要输入到memory cell中值，那么不一定输入的进去，因为有输入门input gate控制，同时还有输出门output gate，控制是否输出，遗忘门forget gate控制的是什么时候memory cell要把过去记得的东西忘掉，该不该忘掉这是LSTM自己学到的。
在这里插入图片描述
那么，存在记忆单元memory cell中的值怎么计算呢，请看下图，这里假设在四个输入之前记忆单元中存的值是c。我们发现如果控制输入门的f（zi）=0，那么输入就是0，是1，那么输入就是原来的输入；假设f（zf）是1，也就是遗忘门开启的时候，c会直接通过，相当于会记得之前存的值c，如果f（zf）=0，就不会记得之前的值（其实这里会发现和我们正常的思考相反的奇怪事情，遗忘门打开，会记得，关闭会忘记，可能叫记忆门更好一些==），同样，f（z0）如果是0，那么输出也就是0，也就不能通过输出门。
在这里插入图片描述
那么四个输入z、zi、zf、zo是什么的，其实都是向量，如下图：

这四个向量怎么来的呢？都是经过x向量转换得到的，得到这四个向量以后的整个实现过程如下图，左边就是我们通常看到的LSTM的结构（蓝色的球代表相乘，粉色的代表相加），c^t-1表示上一次memory cell中的内容，其实就是对右边图的一个解释和形象化的表达。
在这里插入图片描述
那么上一个时间点接下一个时间点的输出的结构如下图所示，一般来说，对于下一次的输入其实不仅要考虑当前的输入，还要把上一时刻的的ht和ct拿过来，把它们并起来作为新的时间点的输入。

三、LSTM和RNN相比为什么能够解决梯度消失的问题

对于RNN来说，对于每一个时间点，memory里的信息都会别覆盖掉，但是LSTM里不一样，它是把原来memory里面的值乘上一个值在加上input的值放到cell里面，它的memory和input是相加的，所以不像RNN在每个时间点都会被覆盖掉，只要前一时刻的信息一被format掉，影响就消失了，但是在LSTM里的影响一直会存在，除非遗忘门Forget Gate把memory里的信息清洗掉。
在这里插入图片描述
相关网址：
李宏毅老师主页：
http://speech.ee.ntu.edu.tw/~tlkagk/courses.html