【Pytorch深度学习实战】（6）递归神经网络（RNN）

LeonDL168

于 2024-08-28 11:23:54 发布

阅读量12

点赞数

分类专栏：深度学习文章标签：深度学习神经网络 pytorch 算法人工智能计算机视觉视觉检测

原文链接：https://blog.csdn.net/sikh_0529/article/details/126922788

版权

深度学习专栏收录该内容

72 篇文章 0 订阅

订阅专栏

🔎大家好，我是Sonhhxg_柒，希望你看完之后，能对你有所帮助，不足请指正！共同学习交流🔎

📝个人主页－Sonhhxg_柒的博客_CSDN博客 📃

🎁欢迎各位→点赞👍 + 收藏⭐️ + 留言📝

📣系列专栏 - 机器学习【ML】自然语言处理【NLP】深度学习【DL】

🖍foreword

✔说明⇢本人讲解主要包括Python、机器学习（ML）、深度学习（DL）、自然语言处理（NLP）等内容。

如果你对这个系列感兴趣的话，可以关注订阅哟👋

循环神经网（Recurrent Neural Network，RNN）

RNN，循环神经网络，也有人将它翻译为递归神经网络。从这个名字就可以想到，它的结构中存在着“环”。

确实，RNN 和 NN/DNN 的数据单一方向传递不同。RNN 的神经元接受的输入除了“前辈”的输出，还有自身的状态信息，其状态信息在网络中循环传递。

RNN 的结构用图形勾画出来，是下图这样的：

图 1

注意：图中的 AA 并不是一个神经元，而是一个神经网络块，可以简单理解为神经网络的一个隐层。

RNN 的这种结构，使得它很适合应用于序列数据的处理，比如文本、语音、视频等。这类数据的样本间存在顺序关系（往往是时序关系），每个样本和它之前的样本存在关联。

RNN 把所处理的数据序列视作时间序列，在每一个时刻 tt，每个 RNN 的神经元接受两个输入：当前时刻的输入样本 xtxt，和上一时刻自身的输出 ht-1 。

t 时刻的输出：

图1经过进一步简化，将隐层的自连接重叠，就成了下图：

图2

上图展示的是最简单的 RNN 结构，此外 RNN 还存在着很多变种，比如双向 RNN（Bidirectional RNN），深度双向 RNN（Deep Bidirectional RNN）等。

RNN 的作用最早体现在手写识别上，后来在语音和文本处理中也做出了巨大的贡献，近年来也不乏将其应用于图像处理的尝试。

长短时记忆（Long Short Term Memory，LSTM）

LSTM 可以被简单理解为是一种神经元更加复杂的 RNN，处理时间序列中当间隔和延迟较长时，LSTM 通常比 RNN 效果好。

相较于构造简单的 RNN 神经元，LSTM 的神经元要复杂得多，每个神经元接受的输入除了当前时刻样本输入，上一个时刻的输出，还有一个元胞状态（Cell State），LSTM 神经元结构请参见下图：

LSTM 神经元中有三个门。

遗忘门（Forget Gate)：接受xt 和 0ht-1 为输入，输出一个0到11之间的值，用于决定在多大程度上保留上一个时刻的元胞状态ct-1。1表示全保留，0表示全放弃。

输入门（Input Gate）: 用于决定将哪些信息存储在这个时刻的元胞状态 ct ct 中。

输出门（Output Gate）：用于决定输出哪些信息。

递归神经网络Pytorch的实现


 
 
   
   
    
    
   
   
   
   
    
    
     
     import torch 
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     import torch.nn 
     
     as nn
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     import torchvision
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     import torchvision.transforms 
     
     as transforms
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     # 设备配置
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     device 
     
     = torch.device(
     
     'cuda' 
     
     if torch.cuda.
     
     is_available() 
     
     else 
     
     'cpu')
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     # 超参数
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     sequence_
     
     length 
     
     = 
     
     28
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     input_
     
     size 
     
     = 
     
     28
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     hidden_
     
     size 
     
     = 
     
     128
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     num_layers 
     
     = 
     
     2
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     num_classes 
     
     = 
     
     10
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     batch_
     
     size 
     
     = 
     
     100
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     num_epochs 
     
     = 
     
     2
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     learning_rate 
     
     = 
     
     0.01
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     # MNIST 数据集
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     train_dataset 
     
     = torchvision.datasets.MNIST(root
     
     =
     
     '../../data/',
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
                                                train
     
     =
     
     True, 
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
                                                transform
     
     =transforms.ToTensor(),
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
                                                download
     
     =
     
     True)
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     test_dataset 
     
     = torchvision.datasets.MNIST(root
     
     =
     
     '../../data/',
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
                                               train
     
     =
     
     False, 
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
                                               transform
     
     =transforms.ToTensor())
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     # 数据加载器
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     train_loader 
     
     = torch.utils.
     
     data.DataLoader(dataset
     
     =train_dataset,
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
                                                batch_
     
     size
     
     =batch_
     
     size, 
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
                                                shuffle
     
     =
     
     True)
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     test_loader 
     
     = torch.utils.
     
     data.DataLoader(dataset
     
     =
     
     test_dataset,
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
                                               batch_
     
     size
     
     =batch_
     
     size, 
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
                                               shuffle
     
     =
     
     False)
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     # 循环神经网络（多对一）
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     class RNN(nn.Module):
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
         def __init__(
     
     self, 
     
     input_
     
     size, hidden_
     
     size, num_layers, num_classes):
    
    
   
   

   
   
    
    
   
   
   
   
    
            
     
     super(RNN, 
     
     self).__init__()
    
    
   
   

   
   
    
    
   
   
   
   
    
            
     
     self.hidden_
     
     size 
     
     = hidden_
     
     size
    
    
   
   

   
   
    
    
   
   
   
   
    
            
     
     self.num_layers 
     
     = num_layers
    
    
   
   

   
   
    
    
   
   
   
   
    
            
     
     self.lstm 
     
     = nn.LSTM(
     
     input_
     
     size, hidden_
     
     size, num_layers, batch_
     
     first
     
     =
     
     True)
    
    
   
   

   
   
    
    
   
   
   
   
    
            
     
     self.fc 
     
     = nn.Linear(hidden_
     
     size, num_classes)
    
    
   
   

   
   
    
    
   
   
   
   
    
        
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
         def forward(
     
     self, x):
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
             # 设置初始隐藏和单元格状态 
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
             h
     
     0 
     
     = torch.
     
     zeros(
     
     self.num_layers, x.
     
     size(
     
     0), 
     
     self.hidden_
     
     size).
     
     to(device) 
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
             c
     
     0 
     
     = torch.
     
     zeros(
     
     self.num_layers, x.
     
     size(
     
     0), 
     
     self.hidden_
     
     size).
     
     to(device)
    
    
   
   

   
   
    
    
   
   
   
   
    
            
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
             # 前向传播 LSTM
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
             out, _ 
     
     = 
     
     self.lstm(x, (h
     
     0, c
     
     0))  # out: tensor 
     
     of shape (batch_
     
     size, seq_
     
     length, hidden_
     
     size)
    
    
   
   

   
   
    
    
   
   
   
   
    
            
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
             # 解码上一个时间步的隐藏状态
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
             out 
     
     = 
     
     self.fc(out[:, -
     
     1, :])
    
    
   
   

   
   
    
    
   
   
   
   
    
            
     
     return out
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     model 
     
     = RNN(
     
     input_
     
     size, hidden_
     
     size, num_layers, num_classes).
     
     to(device)
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     # 损失和优化器
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     criterion 
     
     = nn.CrossEntropyLoss()
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     optimizer 
     
     = torch.optim.Adam(model.parameters(), lr
     
     =learning_rate)
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     # 训练模型
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     total_step 
     
     = len(train_loader)
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     for epoch 
     
     in range(num_epochs):
    
    
   
   

   
   
    
    
   
   
   
   
    
        
     
     for i, (images, labels) 
     
     in enumerate(train_loader):
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
             images 
     
     = images.reshape(-
     
     1, 
     
     sequence_
     
     length, 
     
     input_
     
     size).
     
     to(device)
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
             labels 
     
     = labels.
     
     to(device)
    
    
   
   

   
   
    
    
   
   
   
   
    
            
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
             # 前向传播
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
             outputs 
     
     = model(images)
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
             loss 
     
     = criterion(outputs, labels)
    
    
   
   

   
   
    
    
   
   
   
   
    
            
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
             # 向后和优化
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
             optimizer.
     
     zero_grad()
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
             loss.backward()
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
             optimizer.step()
    
    
   
   

   
   
    
    
   
   
   
   
    
            
    
    
   
   

   
   
    
    
   
   
   
   
    
            
     
     if (i
     
     +
     
     1) % 
     
     100 
     
     =
     
     = 
     
     0:
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
                 print (
     
     'Epoch [{}/{}], Step [{}/{}], Loss: {:.4f}' 
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
                        .
     
     format(epoch
     
     +
     
     1, num_epochs, i
     
     +
     
     1, total_step, loss.item()))
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     # 测试模型
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     model.eval()
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     with torch.
     
     no_grad():
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
         correct 
     
     = 
     
     0
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
         total 
     
     = 
     
     0
    
    
   
   

   
   
    
    
   
   
   
   
    
        
     
     for images, labels 
     
     in 
     
     test_loader:
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
             images 
     
     = images.reshape(-
     
     1, 
     
     sequence_
     
     length, 
     
     input_
     
     size).
     
     to(device)
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
             labels 
     
     = labels.
     
     to(device)
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
             outputs 
     
     = model(images)
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
             _, predicted 
     
     = torch.max(outputs.
     
     data, 
     
     1)
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
             total 
     
     +
     
     = labels.
     
     size(
     
     0)
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
             correct 
     
     +
     
     = (predicted 
     
     =
     
     = labels).
     
     sum().item()
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
         print(
     
     'Test Accuracy of the model on the 10000 test images: {} %'.
     
     format(
     
     100 
     
     * correct 
     
     / total)) 
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     # 模型保存
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     torch.save(model.state_dict(), 
     
     'model.ckpt')