LSTM输入输出理解

最新推荐文章于 2025-02-28 22:48:52 发布

lsjmax

最新推荐文章于 2025-02-28 22:48:52 发布

阅读量1.5w

点赞数 17

分类专栏： Python 机器学习文章标签：深度学习神经网络

本文链接：https://blog.csdn.net/lsjmax/article/details/104376616

版权

机器学习同时被 2 个专栏收录

4 篇文章

订阅专栏

Python

2 篇文章

订阅专栏

LSTM单元计算

在这里插入图片描述
图中虽然有3个LSTM单元，但是实际上只有一LSTM单元A，这里计算过程是假设输入的时间序列是3，则首先输入样本 $x_0$ ,LSTM初始状态 $c_0$ , $h_0$ 得到LSTM的状态 $c_1$ 和 $h_1$ ，此时在同一个LSTM单元输入 $x_1$ 和 $c_1$ 和 $h_1$ ，得到 $c_2$ 和 $h_2$ ，在同一个LSTM单元输入 $x_2$ 和 $c_2$ 和 $h_2$ ，得到 $h_3$ 和 $c_2$ ，此时完成了一次LSTM的forward计算，然后才开始进行反向梯度下降更新参数。
LSTM核心记忆单元是cell state，他存储着经历过的信息。
在这里插入图片描述

遗忘门

通过遗忘门控制是否保留之前的记忆C。
在这里插入图片描述
遗忘门是以上一时刻的LSTM单元输出h和当前时刻的样本输入x拼接成为新的输入变量，经过一层全连接层计算，在激活函数sigmod函数变为值范围[0,1]的数组。

输入门

输入门控制当前时刻的样本输入x是否加入细胞状态记忆c中。
在这里插入图片描述
输入门同样以上一个时刻LSTM神经元的输出h和当前时刻的样本x拼接成新的变量，经过一成全连接层计算和sigmod激活函数，得到[0,1]范围的门控制值。
样本信息，需要经过一层全连接层和tanh函数的处理，得到信息的样本信息。
在这里插入图片描述
该图就是将以前的状态信息和当前新的信息进行相加，得到新的细胞状态记忆，其中用遗忘门和输入门分别控制两部分信息应该保留的多少程度。

输出门

输出门控制LSTM单元是否要输出当前的细胞状态信息c。
在这里插入图片描述
输出门和其他门计算一样，输出的信息需要先经过tanh激活函数后再输出。

完整公式

在这里插入图片描述

多层LSTM网络

在这里插入图片描述
多层LSTM其计算过程以与单层类似，第一层LSTM以输入的样本x和初始化的 $h_0,c_0$ 作为输入进行计算，之后的LSTM以上一层LSTM的输出 $h$ 代替样本x，与上一时刻同层次的LSTM的 $h, c$ 输入进行计算。
最终，output存储了每个时刻样本x输入得到的最后一层LSTM的输出h的集合，若输入时序长度为5，隐层神经元数（门计算时全连接层的隐层神经元数）为3，则一个序列计算后，得到的output的大小就是（5,3），与LSTM层数无关。如果是batch_size=10,那么就是（10,5,3）。通常情况下我们只要最后一个时刻的输出值，即output[:,-1,:]的值。
$h_n$ 得到的是最后一个时刻x输入，每层LSTM输出h的集合。假设共有4层LSTM，隐层神经元个数为3，则一个序列计算后，得到的 $h_n$ 大小就是(4,3)，与序列大小无关，若batch_size=10，那么就是（10,5,3）。
这里可以看到，output[:,-1,:]与 $h_n$ [:,-1,:]是相等的，都是最后一个样本的最后一层LSTM的输出。

pytorch的LSTM输入输出

在这里插入图片描述
torch.nn.LSTM(样本的输入维度，隐层神经元个数，LSTM的层数）
input(序列长度，批大小，样本输入维度）pytorch默认第0维是序列大小
输出out(序列长度，批大小，隐层神经元数)；
hn大小（LSTM层数，批大小，隐层神经元个数);
cn大小（LSTM层数，批大小，隐层神经元个数);
在这里插入图片描述