LSTM理解及代码Demo

LSTM原理

关于LSTM的原理很多大神的博客都介绍的非常详细了,这里简要的介绍一下,参考的博客和链接见文末。

RNN 在实际的应用中最主要的问题就是不能很好的捕捉到远程依赖,这是由它本身的性质决定的,尽管误差可以往后传播,但是由于梯度消失,很难调整前面的神经网络层。

而LSTM最主要的思想在于引入了遗忘门和更新门和输出门的思想,遗忘门表示对未来信息的丢失权重,更新门表示对当前信息的更新权重。

遗忘门,根据上一个时刻的 h t − 1 h_{t-1} ht1和当前时刻的 x t x_{t} xt计算出, 允许上一个时刻的 C t − 1 C^{t-1} Ct1通过的权重是多少,1表示全部通过,0表示全部丢弃。
在这里插入图片描述
更新们则根据上一个时刻的 h t − 1 h_{t-1} ht1和当前时刻的 x t x_{t} xt计算出, 允许当前时刻的 C ∗ t − 1 C^{*t-1} Ct1通过的权重是多少,1表示全部通过,0表示全部丢弃。
在这里插入图片描述
最后,更新当前时刻的 C t C^{t} Ct,最后根据输出门计算得到隐藏层的输出:
在这里插入图片描述

GRU原理

在这里插入图片描述
GRU 里面 Z t Z_{t} Zt表示更新门,有当前输入和上个隐层输出计算得到,表示当前的输入有多少传递到当前的隐层, r t r_{t} rt为记忆门,表示上个时刻的隐层输出有多少传递到当前层的输出。

区别

  • GRU结构比较简单,计算代价较小,可以把网络设计的很深
  • LSTM 结构复杂,性能比较强大,但是计算量比较大

样例代码

在循环神经网络中有很多中结构,输入输出可以是不同的长度,对应得到不同的结构,比如下图所示:
在这里插入图片描述

1-1

输入长度为1,输出长度也为1的,这种情况和传统的神经网络一样,一个输入得到一个输出。

1-N

1和输入,N个输出的情况有2种,一个是每个时刻都是x作为输入,如下图所示:
在这里插入图片描述
还有一种情况就是最开始有1个输入,以后的输入都是上一个时刻的输出。

N-1

输入长度为N,输出长度为1的模型,典型的例子有给定一段评论,需要评定用户的情感得分。

N-N

输入长度为N,输出长度也为N,也就是输入长度等于输出长度的情况,比较典型的有实体命名识别的任务,判断当前这个词汇是不是命名实体的一部分,还有比较典型的是序列生成,输入是当前这个序列,输出是移动一位的下一个词汇。

N-M

输入长度为N,输出长度为M的情况,输入长度和输出长度不等,最典型的情况就是翻译,具体做法是先对输入做一个编码,全部存在在一个结构中,然后依次对这个信息做解码,输出翻译的语句。

本打算把每种情况的 demo 代码都整理一下,放上去,时间不够了,先搁在这里。

参考文献

  • 3
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
BiLSTMLSTM是两种常用的循环神经网络(RNN)模型,它们在处理序列数据时具有一定的差异。下面是它们的代码区别: 1. LSTM(长短期记忆网络)代码示例: ```python import torch import torch.nn as nn class LSTMModel(nn.Module): def __init__(self, input_size, hidden_size, num_layers, output_size): super(LSTMModel, self).__init__() self.hidden_size = hidden_size self.num_layers = num_layers self.lstm = nn.LSTM(input_size, hidden_size, num_layers, batch_first=True) self.fc = nn.Linear(hidden_size, output_size) def forward(self, x): h0 = torch.zeros(self.num_layers, x.size(0), self.hidden_size).to(x.device) c0 = torch.zeros(self.num_layers, x.size(0), self.hidden_size).to(x.device) out, _ = self.lstm(x, (h0, c0)) out = self.fc(out[:, -1, :]) return out ``` 2. BiLSTM(双向长短期记忆网络)代码示例: ```python import torch import torch.nn as nn class BiLSTMModel(nn.Module): def __init__(self, input_size, hidden_size, num_layers, output_size): super(BiLSTMModel, self).__init__() self.hidden_size = hidden_size self.num_layers = num_layers self.bilstm = nn.LSTM(input_size, hidden_size, num_layers, batch_first=True, bidirectional=True) self.fc = nn.Linear(hidden_size * 2, output_size) def forward(self, x): h0 = torch.zeros(self.num_layers * 2, x.size(0), self.hidden_size).to(x.device) c0 = torch.zeros(self.num_layers * 2, x.size(0), self.hidden_size).to(x.device) out, _ = self.bilstm(x, (h0, c0)) out = self.fc(out[:, -1, :]) return out ``` 上述代码中,LSTMModel是一个单向LSTM模型,而BiLSTMModel是一个双向LSTM模型。它们的区别在于BiLSTMModel中的LSTM层是双向的,即同时考虑了正向和反向的序列信息。在代码中,双向LSTM的隐藏状态和细胞状态的维度是单向LSTM的两倍,并且在最后的全连接层中,使用了双向LSTM的隐藏状态进行预测。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值