pytorch_LSTM

本文介绍了LSTM长短期记忆网络的原理和工作过程,包括遗忘门、输入门、细胞状态和输出门四个部分。并展示了在PyTorch中使用nn.LSTM搭建LSTM模型的步骤和输入输出尺寸。提供了相关代码参考链接。
摘要由CSDN通过智能技术生成

LSTM

长的短时记忆网络。LSTM虽然只解决了短期依赖的问题,并且它通过刻意的设计来避免长期依赖问题,这样的做法在实际应用中被证明还是十分有效的,有很多人跟进相关的工作解决了很多实际的问题,所以现在LSTM 仍然被广泛地使用。

标准的循环神经网络内部只有一个简单的层结构,而 LSTM 内部有 4 个层结构:

  • 第一层是个忘记层:决定状态中丢弃什么信息

  • 第二层tanh层用来产生更新值的候选项,说明状态在某些维度上需要加强,在某些维度上需要减弱

  • 第三层sigmoid层(输入门层),它的输出值要乘到tanh层的输出上,起到一个缩放的作用,极端情况下sigmoid输出0说明相应维度上的状态不需要更新

  • 最后一层决定输出什么,输出值跟状态有关。候选项中的哪些部分最终会被输出由一个sigmoid层来决定。


每一层:input (X_t), Cell State(C_t-1), hidden state units(h_t-1), 得到Cell State(C_t-1),hidden state units(h_t);
最后一层,得到输出。
在这里插入图片描述
第一步:准备input (X_t), Cell State(C_t-1), hidden state units(h_t-1),

  • 其中,第一层的Cell State(C_t-1), hidden state units(h_t-1)由初始化得到
  • 其余层的Cell State(C_t-1), hidden state units(h_t-1)由上一层计算更新
def initHidden(self, batch_size):
   Hidden_State = Variable(torch.zeros(batch_size, self.hidden_size))
   Cell_State = Variable(torch.zeros(batch_size, self.hidden_size))
return Hidden_State, Cell_State

在这里插入图片描述
第二步:合并input (X_t), Cell State(C_t-1)

combined = torch.cat((input, Hidden_State), 1)

在这里插入图片描述
全部步骤:
在这里插入图片描述

py

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值