莫烦pytorch 什么是LSTM 循环神经网络

RNN的弊端
在这里插入图片描述
之前我们说过,RNN是在有顺序的数据上进行学习的。为了记住这些数据,RNN会像人一样产生对先前发生事件的记忆。不过一般形式的RNN就像一个老爷爷,有时候比较健忘。为什么会这样呢?
在这里插入图片描述
想象现在有这样一个RNN,他的输入值是一句话:“我今天要做红烧排骨, 首先要准备排骨, 然后…., 最后美味的一道菜就出锅了”。现在请RNN来分析,我今天做的到底是什么菜呢。RNN可能会给出“辣子鸡”这个答案。由于判断失误,RNN就要开始学习这个长序列X和‘红烧排骨’的关系,而RNN需要的关键信息“红烧排骨”却出现在句子开头,
在这里插入图片描述
再来看看RNN是怎样学习的吧。红烧排骨这个信息原的记忆要经过长途跋涉才能抵达最后一个时间点。然后我们得到误差,而且在反转传递得到的误差的时候,他在每一步都会乘以一个自己的参数W。如果这个W是一个小于1的数,比如0.9。这个0.9不断乘以误差,误差传到初始时间点也会是一个接近于零的数,所以对于初始时刻,误差相当于就消失了。我们把这个问题叫做梯度消失或者梯度消失或者梯度弥散 Gradient vanishing。反之如果W是一个大于1的数,比如1.1不断累乘,则最后变成了无穷大的数,RNN被这无穷大的数撑死了,这种情况我们叫做梯度爆炸,Gradient exploding。这就是普通RNN没有办法回忆起超久远记忆的原因。

LSTM
在这里插入图片描述

LSTM就是为了解决这个问题而诞生的。LSTM和普通RNN相比,多出了三个控制器。(输入控制,输出控制,忘记控制)。现在,LSTM RNN内部的情况是这样。

他多了一个控制全局的记忆,我们用粗线代替。为了方便理解,我们把粗线想象成电影或游戏当中的主线剧情。而原本的RNN体系就是分线剧情。三个控制器都是在原始的RNN体系上,我们先看输入方面,如果此时的分线剧情对于剧终结果十分重要,输入控制就会将这个分线剧情按重要程度写入主线剧情进行分析。再看忘记方面,如果此时的分线剧情更改了我们对之前剧情的想法,那么忘记控制就会将之前的某些主线剧情忘记,按比例替换成现在的新剧情。所以主线剧情的更新就取决于输入和忘记控制。最后的输出方面,输出控制会基于目前的主线剧情和分线剧情判断要输出的到底是什么。基于这些控制机制,LSTM就像延缓记忆衰退的良药,可以带来更好的结果。

拓展:

PyTorch 中的 LSTM模型参数解释

pytorch nn.LSTM()参数详解

你想要了解如何使用PyTorch实现LSTM循环神经网络吗? 在PyTorch中,你可以使用`torch.nn.LSTM`模块来实现LSTM循环神经网络。以下是一个简单的示例代码,展示了如何定义和使用LSTM网络: ```python import torch import torch.nn as nn # 定义LSTM网络 class LSTM(nn.Module): def __init__(self, input_size, hidden_size, num_layers, output_size): super(LSTM, self).__init__() self.hidden_size = hidden_size self.num_layers = num_layers self.lstm = nn.LSTM(input_size, hidden_size, num_layers, batch_first=True) self.fc = nn.Linear(hidden_size, output_size) def forward(self, x): h0 = torch.zeros(self.num_layers, x.size(0), self.hidden_size).to(x.device) c0 = torch.zeros(self.num_layers, x.size(0), self.hidden_size).to(x.device) out, _ = self.lstm(x, (h0, c0)) out = self.fc(out[:, -1, :]) return out # 定义输入维度、隐藏层维度、隐藏层数量和输出维度 input_size = 10 hidden_size = 20 num_layers = 2 output_size = 1 # 创建LSTM实例 lstm = LSTM(input_size, hidden_size, num_layers, output_size) # 定义输入数据 batch_size = 3 sequence_length = 5 input_data = torch.randn(batch_size, sequence_length, input_size) # 前向传播计算输出 output = lstm(input_data) print(output.shape) # 输出形状: (3, 1) ``` 这个示例代码定义了一个简单的LSTM网络,并使用随机生成的输入数据进行前向传播计算。你可以根据自己的需求修改网络结构和输入数据的维度。 希望以上代码对你有所帮助!如果你有任何进一步的问题,请随时提问。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值