pytorch_LSTM

多问为什么，坚持跑步

于 2020-01-15 17:43:20 发布

阅读量318

点赞数

文章标签：神经网络 python

本文链接：https://blog.csdn.net/baihehaitangyijiu/article/details/103993605

版权

本文介绍了LSTM长短期记忆网络的原理和工作过程，包括遗忘门、输入门、细胞状态和输出门四个部分。并展示了在PyTorch中使用nn.LSTM搭建LSTM模型的步骤和输入输出尺寸。提供了相关代码参考链接。

摘要由CSDN通过智能技术生成

LSTM

长的短时记忆网络。LSTM虽然只解决了短期依赖的问题，并且它通过刻意的设计来避免长期依赖问题，这样的做法在实际应用中被证明还是十分有效的，有很多人跟进相关的工作解决了很多实际的问题，所以现在LSTM 仍然被广泛地使用。

标准的循环神经网络内部只有一个简单的层结构，而 LSTM 内部有 4 个层结构：

第一层是个忘记层：决定状态中丢弃什么信息
第二层tanh层用来产生更新值的候选项，说明状态在某些维度上需要加强，在某些维度上需要减弱
第三层sigmoid层（输入门层），它的输出值要乘到tanh层的输出上，起到一个缩放的作用，极端情况下sigmoid输出0说明相应维度上的状态不需要更新
最后一层决定输出什么，输出值跟状态有关。候选项中的哪些部分最终会被输出由一个sigmoid层来决定。

每一层：input (X_t), Cell State(C_t-1), hidden state units(h_t-1)，得到Cell State(C_t-1)，hidden state units(h_t)；
最后一层，得到输出。
在这里插入图片描述
第一步：准备input (X_t), Cell State(C_t-1)， hidden state units(h_t-1)，

其中，第一层的Cell State(C_t-1)， hidden state units(h_t-1)由初始化得到
其余层的Cell State(C_t-1)， hidden state units(h_t-1)由上一层计算更新

def initHidden(self, batch_size):
   Hidden_State = Variable(torch.zeros(batch_size, self.hidden_size))
   Cell_State = Variable(torch.zeros(batch_size, self.hidden_size))
return Hidden_State, Cell_State

在这里插入图片描述
第二步：合并input (X_t), Cell State(C_t-1)

combined = torch.cat((input, Hidden_State), 1)

全部步骤：

最低0.47元/天解锁文章

多问为什么，坚持跑步

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫