LSTM神经网络

一枚小可爱c

已于 2022-07-21 17:46:08 修改

阅读量2.8k

点赞数 1

分类专栏：文章文章标签： lstm 神经网络深度学习

于 2022-07-20 21:00:18 首次发布

本文链接：https://blog.csdn.net/qq_38147044/article/details/125899464

版权

文章专栏收录该内容

17 篇文章 0 订阅

订阅专栏

长短期记忆网络（LSTM）是循环网络的一个变体，可以有效的解决循环神经网络（RNN）的梯度爆炸问题。

LSTM的三个门

LSTM网络引入门控机制（gating mechanism）来控制信息传递的路径，三个门分别是输入门 $i_{t}$ 、遗忘门 $f_{t}$ 、输出门 $o_{t}$ ，这三个门的作用分别是：

（1）输入门 $i_{t}$ 控制当前时刻的候选状态 $\tilde{c}_{t}$ 有多少信息需要保存.

（2）遗忘门 $f_{t}$ 控制上一个时刻的内部状态 $c_{t-1}$ 需要遗忘多少信息

（3）输出门 $o_{t}$ 控制当前时刻的内部状态 $c_{t}$ 有多少信息需要输出给外部状态 $h_{t}$

当 $f_{t}=0$ , $i_{t}=1$ 时，记忆单元将历史信息清空，并将候选状态向量 $\tilde{c}_{t}$ 写入，但此时记忆单元 $c_{t}$ 依然和上一时刻的历史信息相关，当 $f_{t}=1$ , $i_{t}=0$ 时，记忆单元将复制上一时刻的内容，不写入新的信息。

LSTM网络中的“门”是一种“软”门，取值在（0，1）之间，表示以一定的比例允许信息通过，三个门的计算方式为：

$i_{t}=\sigma (W_{i}x_{t}+U_{i}h_{t-1}+b_{i})$ ,

$f_{t}=\sigma (W_{f}x_{t}+U_{f}h_{t-1}+b_{f})$ ,

$o_{t}=\sigma (W_{o}x_{t}+U_{o}h_{t-1}+b_{o})$ ,

其中 $\sigma (\cdot )$ 为Logistic函数，其输出区间为（0，1）， $x_{t}$ 为当前时刻的输入， $h_{t-1}$ 为上一时刻的外部状态。

LSTM的计算过程

下图给出了LSTM网络的循环单元结构

其计算过程为：

1）首先利用上一时刻的外部状态 $h_{t-1}$ 和当前时刻的输入 $x_{t}$ 计算出三个门，以及候选状态 $\tilde{c}_{t}$ ；

2）结合遗忘门 $f_{t}$ 和输入门来更新记忆单元 $c_{t}$ ；

3）结合输出门 $o_{t}$ ，将内部状态的信息传递给外部状态 $h_{t}$ ；

pytorch中lstm参数解释

LSTM总共有7个参数：

1：input_size – 输入数据的大小

2：hidden_size – 隐藏层的大小（即隐藏层节点数量），输出向量的维度等于隐藏节点数

3：num_layers – LSTM 堆叠的层数，默认值是1层，如果设置为2，第二个LSTM接收第一个LSTM的计算结果。也就是第一层输入 [ X0 X1 X2 ... Xt]，计算出 [ h0 h1 h2 ... ht ]，第二层将 [ h0 h1 h2 ... ht ] 作为 [ X0 X1 X2 ... Xt] 输入再次计算，输出最后的 [ h0 h1 h2 ... ht ]。

4：bias– 隐层状态是否带bias，默认为true。bias是偏置值，或者偏移值

5：batch_first– 输入输出的第一维是否为 batch_size，默认值 False

6：dropout– 默认值0。是否在除最后一个 RNN 层外的其他 RNN 层后面加 dropout 层。输入值是 0-1 之间的小数，表示概率。0表示0概率dripout，即不dropout

7：bidirectional– 是否是双向 RNN，默认为：false，若为 true，则：num_directions=2，否则为1。

为什么叫长短期记忆？（长短期记忆是指长的“短期记忆”）

循环神经网络中的隐状态 $h$ 存储了历史信息，可以看作是一种记忆。在简单循环网络中，隐状态每个时刻都会被重写，因此可以看作一种短期记忆，在神经网络中，长期记忆可以看作网格参数，隐含了从训练数据中学到的经验，其更新周期要远远慢于短期记忆，而在LSTM网络中，记忆单元 $c$ 可以在某个时刻捕捉到某个关键信息，并有能力将此关键信息保存一定的时间间隔，记忆单元 $c$ 中保存信息的声明周期要长于短期记忆 $h$ ，但又远远短于长期记忆，因此称为长短期记忆。

关于梯度弥散

一般在深度网络参数学习时，参数初始化的值一般设置都比较小，但是在训练LSTM网络时，过小的值会使得遗忘门的值比较小，这意味着前一时刻的信息大部分都丢失了，这样网络很难捕捉到长距离的依赖信息，并且相邻时间间隔的梯度会非常小，这会导致梯度弥散问题。因此遗忘的参数初始值一般设置的都比较大，其偏执向量 $b_{f}$ 设为1或2