【神经网络】一文读懂LSTM神经网络

最新推荐文章于 2024-03-10 17:20:32 发布

七彩吞天蟒

最新推荐文章于 2024-03-10 17:20:32 发布

阅读量5.1k

点赞数 7

分类专栏：自然语言处理深度学习文章标签： LSTM 神经网络自然语言处理深度学习人工智能

本文链接：https://blog.csdn.net/weixin_42057852/article/details/88638506

版权

自然语言处理同时被 2 个专栏收录

10 篇文章 1 订阅

订阅专栏

深度学习

9 篇文章 0 订阅

订阅专栏

简介

说到LSTM神经网络，大家都不陌生，LSTM指的是Long Short-Term Memory，意思是：长短时记忆，也就是说这个神经网络有记忆功能，为什么说它有记忆功能呢？因为在训练数据的时候，很久之前的文本保留下来的信息，可以对当下的预测产生影响，所以就认为神经网络记住了一部分信息。

1. 与RNN对比

由于LSTM来源于对RNN的升级，我们先从RNN入手，来理解整个LSTM在做什么
RNN
图上的三个节点其实是按照时间的顺序展开的，或者叫做顺着时序展开的，我们只需要关注其中的一个节点就可以了，从图上看，每个节点的输入有两个，输出也有两个。输出的两个是同一个值，一个用于输出结果，一个用于下一层的输入（其实是同一层，只是下一次迭代的输入），就这样不停的循环迭代训练，就完成了一个RNN神经网络的训练。可能有人要疑惑了，只有一个神经元节点，也就是说只有一个权重W，这样训练出来的网络模型能有很好的拟合能力，或者说是记忆能力？其实，图上只是展现了一个神经元的内部过程，其实这种神经元是可以并列有很多的，同时，也可以设置多个隐层，这样的话就会有很多的参数了，其记忆能力就会变强了。
接下来我们看看LSTM有什么升级
在这里插入图片描述
由图可知，和RNN相比，从输入和输出方面，LSTM多了个输入，也多了个输出，多的这个值，就是LSTM的记忆和遗忘机制，值通常用C表示，C指的是Cell，也就是细胞的状态的意思。也就是说，这个值能够决定记忆什么，忘记什么。那这个值的出现有什么好处呢？假如当这个值为0的时候，就说明前面的都不用记住了，也就是说，在反向求导的时候，到这里就可以停止了，我们知道，链式法则里的连乘或者连加，有了这个值的出现，我们就可以避免梯度的Explod和vanishing。具体C的遗忘机制的实现方法，我们在下面详细的探讨。

2. 细节解释

在这里插入图片描述
要看懂LSTM的具体实现步骤，就得了解每个小组件代表着什么意思。

Nerual Network Layer ：神经网络层，在是指经过这个图标的时候，会对数据进行非线性变换，通常是添加激活函数和偏置。σ一般指的是sigmoid激活函数，tanh便是tanh函数；
Pointwise Operation：智慧点操作，这个点有两种运算方式，一种是加，一种是乘；
Vector Transfer：向量的传输；
Concatenate：连接，一般是向量的拼接操作；
Copy：拷贝，即同一份数据，拷贝成两份输出。

3. 细胞状态

在这里插入图片描述
从图上可以看到，Cell状态的变换即C值的变换一共经过了两次操作，这两次操作决定了C_t-1的遗忘和更新，首先，C_t-1经过了乘法的Pointwise Operation，这一步决定了C_t-1值是否被遗忘，为什么呢？我们可以看出，与C_t-1相乘的数来自于下方的层，那么下方传过来的数据的取值范围是多少呢？我们可以看出，下方的数据通过的是一个sigmoid的层，也就是说下方穿过来的数据的取值为(0, 1)，一般情况下，当输入值大于3或者小于-3的时候，sigmoid的值就接近了1和0，也就是说，C的值一般情况下会接近于C_t-1不变，或者0，也就是说记住了C或者遗忘了C_t-1，当然，一个介于(0, 1)之间的数与C_t-1相乘的话，则代表需要记住多少的C_t-1值。接下来，C_t-1值又遇到了一个加法，则是对C_t-1>值的变更，比如新的信息的加入，一般理解为需要记忆的新的东西。这么来看，我们就完成了C值的遗忘机制，也就是说，这个神经网络具备了记忆和遗忘的能力。
在LSTM中，这便是所谓的门的概念。【在集成电路里，逻辑门就是代表逻辑上的“真”与“假”或二进制当中的1和0，从而实现逻辑运算。】

4. 遗忘门

在这里插入图片描述
在上面介绍Cell状态的时候也粗略的讨论了这个遗忘门的基本机制，我们来看这个遗忘门的输入信息，分别是 h_t-1，x_t，从公式上我们可以看到是这两个值与权重矩阵 W_f 相乘，我们可以理解为 h_t-1 与 x_t 的拼接，拼接以后再与 W_f 相乘，然后加上一个偏置 b_f，最后经过一个激活函数sigmoid，使得线性变换变成非线性变换，此时 f_t 的取值为(1,0)，这个值决定了 C_t-1 的值是否被记忆或者遗忘，或者说记住多少，这就是这个遗忘门的作用。

5. 输入门

在这里插入图片描述
同理，i_t 和 f_t 公式是一样的，这就说明，i_t 也具有遗忘的功能，比如，C_t-1在遇到 f_t 的时候，f_t 决定保留C_t-1的记忆，则此时，i_t 则决定着对 C_t‘ 的遗忘能力，所以，C_t‘ 是LSTM需要记忆的新的值。我们可以看到C_t‘的取值范围是(-1,1)，说明新增的记忆的是征服兼有的，这代表着什么呢，可以理解为正例记忆和反例记忆。