LSTM//循环神经网络的个人理解

biao169

于 2023-04-26 12:01:14 发布

阅读量386

点赞数

分类专栏：机器学习自学笔记 python开发文章标签： rnn lstm 深度学习

本文链接：https://blog.csdn.net/tjb132/article/details/130381658

版权

机器学习自学笔记同时被 2 个专栏收录

20 篇文章 1 订阅

订阅专栏

python开发

11 篇文章 0 订阅

订阅专栏

[TOP] LSTM/循环神经网络的理解

前言自省：

作为一名已经研究深度学习网络多年的研究员，虽曾多次浅尝LSTM这种网络，但是都没有花时间对其进行深刻解读。
本文只谈对LSTM在逻辑思想上的理解，不进行技术解析。

1. 经典LSTM原理图

在这里插入图片描述
这里边涉及“遗忘门”、“记忆门”、“输出门”，具体解析可以参考：

2. “长短时”记忆关于时间概念的理解

因为在pytorch里边，LSTM网络需要先定义输入的维度尺寸。
见下方代码，可以看到：

LSTM网络在没有预给定隐藏层状态 hidden时（A处）
lstm在输出中包含隐藏层的状态，即hidden。可以看到这个hidden的维度和batch有关，而和seq_len无关。这不禁疑问，
如此，在预定义隐藏层状态时（B处）
定义的矩阵岂不是需要batch的信息。会略微麻烦。因为，一般地，我们都希望batch的信息和网络没有关系。

lstm = nn.LSTM(10, 20, 6, batch_first=True) # input_len, hidden_size, num_layers

x = torch.ones([2, 3, 10])  # [batch, seq_len, input_len]
y, hidden = lstm(x, )  # A
print(y.shape)
print('hidden:', hidden[0].shape, hidden[1].shape , len(hidden))
# >> torch.Size([6, 2, 20]) torch.Size([6, 2, 20]) 2
y, hidden = lstm(x, hidden)  # B
print(y.shape)
print('hidden:', hidden[0].shape, hidden[1].shape , len(hidden))
# >> torch.Size([6, 2, 20]) torch.Size([6, 2, 20]) 2