循环神经网络四-LSTM和GRU的使用

Mr终游

于 2024-08-09 18:35:51 发布

阅读量230

点赞数 2

分类专栏：深度学习文章标签： rnn lstm gru pytorch 人工智能深度学习

本文链接：https://blog.csdn.net/m0_73426548/article/details/141066474

版权

深度学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

1.介绍

LSTM和GRU都是由torch.nn提供

torch.nn.LSTM(input_size,hidden_size,num_layers,batch_first,dropout,bidirectional) 其中：

1.input_size:输入数据的形状，即embedding_dim

2.hidden_size：隐藏神经元的数量，即每一层由多少个LSTM单元

3.num_layer：即RNN中LSTM的数量

4.batch_first：默认为False，输入数据需要[seq_len,batch,feature],如果为True，则为[batch,seq_len,feature]

5.dropout：dropout的比例，默认为0，dropout是一种训练过程中让部分参数随机失活的一种方式，能够提高训练速度，同时能解决过拟合的问题。这里是在LSTM的最后一层，对每个输出进行dropout

6.bidiretional：是否使用双向LSTM，默认为False

LSTM的输入：结合上一章内容，实例化LSTM的时候不仅要传入数据还要传入前一次的h_0和C_0

LSTM的输出：默认输出为output，(h_n,c_n)

1.output输出形式：（seq_len,batch,num_directions*hidden_size）当batch_first=False时

2.h_n：(num_layers * num_directions, batch, hidden_size)

3.c_n：(num_layers * num_directions, batch, hidden_size)

二.LSTM使用示例

假设输入为input，形状为[10,20]，假设embedding的形状是[100,30]

import torch

batch_size=10  # 数据的条数
seq_len=20    #  没条数据的长度
embedding_dim=30  # 每条数据用多长的向量来表示
word_vocab=100   # 生成的词典中词语的总数
hidden_size=18   # 隐层中的lstm的个数
num_layer=2  # 多少个隐层

# 准备数据最小值为0最大值为一百的10行20列的数据
input=torch.randint(low=0,high=100,size=(batch_size,seq_len))
# 实例化embedding
embedding=torch.nn.Embedding(word_vocab,embedding_dim)
# 实例化LSTM
lstm=torch.nn.LSTM(embedding_dim,hidden_size,num_layer)
# 进行mebed操作
embed=embedding(input)
print(embed.size())  # torch.Size([10, 20, 30])
# 数据转化为batch_first=False的形状
embed=embed.permute(1,0,2)  # torch.Size([20, 10, 30])

# 初始化状态，如果不初始化，torch默认初始值全为0
h_0=torch.rand(num_layer,batch_size,hidden_size)  #torch.Size([2, 10, 18])

c_0=torch.rand(num_layer,batch_size,hidden_size)  #torch.Size([2, 10, 18])

output,(h_1,c_1)=lstm(embed,(h_0,c_0))  
print(output.size())  #torch.Size([20, 10, 18])
print(c_1.size())  #torch.Size([2, 10, 18])
print(h_1.size())   #torch.Size([2, 10, 18])

三.GRU的使用示例

和LSTM相同，也是从troch.nn中导入，而且参数也和LSTM相同。不同的是输入和输出

1.输入：输入的时候只用输入input和h_0，相比LSTM少了c_0

2.输出：输出两个数据output(seq_len, batch, num_directions*hidden_size)，

h_n=(num_layers * num_directions, batch,hidden_size)

四.双向LSTM

如果需要使用双向LSTM，则要将实例化LSTM的过程中，将参数bidriectional设置为True，同时h_0,c_0的维度中num_layer*2

import torch

batch_size=10  # 数据的条数
seq_len=20    #  没条数据的长度
embedding_dim=30  # 每条数据用多长的向量来表示
word_vocab=100   # 生成的词典中词语的总数
hidden_size=18   # 隐层中的lstm的个数
num_layer=2  # 多少个隐层

# 准备数据最小值为0最大值为一百的10行20列的数据
input=torch.randint(low=0,high=100,size=(batch_size,seq_len))
# 实例化embedding
embedding=torch.nn.Embedding(word_vocab,embedding_dim)
# 实例化LSTM，使用双向LSTM，所以bidirectional设置为True
lstm=torch.nn.LSTM(embedding_dim,hidden_size,num_layer, bidirectional=True)
# 进行mebed操作
embed=embedding(input)
print(embed.size())  # torch.Size([10, 20, 30])
# 数据转化为batch_first=False的形状
embed=embed.permute(1,0,2)  # torch.Size([20, 10, 30])

# 初始化状态，如果不初始化，torch默认初始值全为0，使用双向LSTM时，num_layer要乘2，也就是要两倍的隐藏层来实现双向
h_0=torch.rand(num_layer*2,batch_size,hidden_size)  #torch.Size([2, 10, 18])

c_0=torch.rand(num_layer*2,batch_size,hidden_size)  #torch.Size([2, 10, 18])

output,(h_1,c_1)=lstm(embed,(h_0,c_0))  
print(output.size())  #torch.Size([20, 10, 18])
print(c_1.size())  #torch.Size([2, 10, 18])
print(h_1.size())   #torch.Size([2, 10, 18])

Mr终游

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
循环神经网络四-LSTM和GRU的使用

LSTM和GRU都是由torch.nn提供其中：1.input_size:输入数据的形状，即embedding_dim2.hidden_size：隐藏神经元的数量，即每一层由多少个LSTM单元3.num_layer：即RNN中LSTM的数量4.batch_first：默认为False，输入数据需要,如果为True，则为5.dropout：dropout的比例，默认为0，dropout是一种训练过程中让部分参数随机失活的一种方式，能够提高训练速度，同时能解决过拟合的问题。
复制链接

扫一扫

专栏目录