广西民族大学高级人工智能课程—头歌实践教学实践平台-RNN 基础

本文链接：https://blog.csdn.net/gxmzuai/article/details/135015984

本文介绍了如何使用 PyTorch 构建和训练基本的 RNN 模型，涵盖 RNN 的发展历史、原理以及如何在 PyTorch 中实现。通过预测正弦曲线的下一个值来展示 RNN 的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

代码文件

import random
import torch
import numpy as np
import matplotlib.pyplot as plt
import warnings


warnings.filterwarnings("ignore")

# 数据生成
random.seed(42)
np.random.seed(42)
torch.manual_seed(42)

x = np.linspace(-10, 10, 1000)
y = np.sin(x) + np.random.uniform(-0.5, 0.5, 1000)

# 将numpy数组转换为torch张量
x = torch.tensor(x).float().view(-1, 1)
y = torch.tensor(y).float().view(-1, 1)

# 定义RNN模型
class RNN(torch.nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super(RNN, self).__init__()
        self.hidden_size = hidden_size
        self.rnn = torch.nn.RNN(input_size, hidden_size, batch_first=True)
        self.linear = torch.nn.Linear(hidden_size, output_size)

    def forward(self, x, hidden):
        out, hidden = self.rnn(x, hidden)
        out = self.linear(out[:, -1, :])
        return out, hidden


# 初始化模型、优化器和损失函数
################### Begin #############################
model = RNN(1, 32, 1)
optimizer = torch.optim.Adam(model.parameters(), lr=0.01)
criterion = torch.nn.MSELoss()


###################  End  #############################

# 开始训练
seq_len = 10
for epoch in range(21):
    for i in range(x.size(0) - seq_len):
        inputs = x[i:i+seq_len]
        targets = y[i+1:i+seq_len+1]
        hidden = torch.zeros(1, 1, 32)
        output, hidden = model(inputs.unsqueeze(0), hidden)
        loss = criterion(output, targets)
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
    if (epoch+1) % 5 == 0:
        print('Epoch: {}, Loss: {:.4f}'.format(epoch+1, loss.item()))


# 评估
predictions = []
hidden = torch.zeros(1, 1, 32) 
for i in range(x.size(0) - 1):
    input1 = x[i:i+1]
    output, hidden = model(input1.unsqueeze(0), hidden)
    predictions.append(output.detach().numpy())

predictions = torch.tensor(predictions).float().view(-1, 1)
print("predictions:", predictions)

# 我们可以通过绘制预测值和真实值的曲线来直观地看到预测效果
plt.plot(x.numpy(), y.numpy(), label='true')
plt.plot(x.numpy()[:-1], predictions.squeeze().numpy(), label='predict')
plt.legend()
output1 = "/data/workspace/myshixun/第一关/result_img/result1.png"
plt.savefig(output1)
plt.close()

题目描述

任务描述

本关任务：理解 RNN 的结构、原理和工作方式并学习用 PyTorch 实现 RNN 的基本架构。

相关知识

为了完成本关任务，你需要掌握：

RNN 理论介绍；
使用 PyTorch 构建基本 RNN。

RNN 理论介绍

RNN 发展历史

循环神经网络（Recurrent Neural Networks，RNN）的发展历程可以追溯到1980年代。RNN 发展历程大概的概述如下：

1982年：John Hopfield 首次介绍了一种新型神经网络模型，即 Hopfield 网络。Hopfield 网络可以被视为 RNN 的起点，它使用全连接的神经元并且所有连接都有相同的权重，以此实现动态稳定性。
1986年：David Rumelhart, Geoffrey Hinton 和 Ronald Williams 提出了反向传播（backpropagation）算法。这个算法也被用于训练 RNN。
1989年：Elman 发表论文，首次提出了今天我们称为 Elman 网络或者简单RNN的网络结构。这种网络将前一步的隐藏状态作为当前步的输入的一部分，实现了对序列数据的处理。
1997年：Hochreiter 和 Schmidhuber 提出了长短期记忆（Long Short-Term Memory, LSTM）模型，这是一种特殊的 RNN，能够有效地解决梯度消失和梯度爆炸问题，以便学习长序列中的依赖关系。
2000年：Felix Gers 和他的同事对 LSTM 进行了改进，添加了“遗忘门”，进一步增强了模型的性能。
2014年：Cho 等人提出了门控循环单元（Gated Recurrent Unit, GRU）。GRU 是 LSTM 的一种变体，结构更简单，但保留了类似的性能。
2015年：由于计算机硬件的改进，尤其是 GPU 的使用，以及更大数据集的可用性，RNN，特别是其 LSTM 和 GRU 变体，在许多任务中（包括机器翻译、语音识别等）都取得了显著的成功。
近年来：随着注意力机制（attention）的提出，以及 Transformer 模型的出现，RNN在某些任务上（尤其是 NLP 任务）已被这些更新的架构所取代。然而，RNN 仍然在处理序列数据和建模时间依赖性方面有其独特的优势，仍在许多应用中被广泛使用。

RNN 原理

RNN，即循环神经网络（Recurrent Neural Networks），是一种常见的神经网络类型，尤其在处理序列数据（如文本、时间序列等）方面，RNN表现出强大的能力。这种模型的特点是能够保持在前一步的状态，并在下一步中利用这些信息，这使得RNN具有“记忆”的特性，能够在处理序列数据时处理前后之间的依赖关系。

RNN结构

一个基本的 RNN 单元的工作原理如下：

对于每一个时间点t，RNN 会有一个输入 xt 和一个输出 ht。这个输出也被称为隐藏状态或者记忆。重要的是，这个隐藏状态不仅仅依赖于当前时间点的输入，也会依赖于前一个时间点的隐藏状态。这就是“循环”二字的由来：信息会在网络中循环不断的向前传播。

在数学上，我们可以用下面的公式来描述这种操作：

ht=f(Wx∗xt+Wh∗ht−1+b)

其中，Wx 和 Wh 是输入权重和循环权重，b 是偏置项，f 是非线性激活函数，如 tanh 或 ReLU。

上述描述的是最简单的RNN结构，即 "Elman RNN" 或者 "SimpleRNN"。在实践中，为了解决梯度消失和梯度爆炸问题，以及更有效地学习长期依赖，我们经常使用更复杂的 RNN 变体，例如长短期记忆网络（LSTM）和门控循环单元（GRU）。

值得注意的是，尽管 RNN 有处理序列数据的能力，但是由于“梯度消失”的问题，它们常常难以捕捉序列中的长距离依赖关系。因此，在实践中，LSTM 和 GRU 这样的 RNN 变体更为常见。

使用 PyTorch 构建基本 RNN

PyTorch 介绍

PyTorch 是一个基于 Python 的科学计算包，提供深度学习研究平台，提供最大的灵活性和速度：

张量计算（类似 NumPy）与强大的 GPU 加速：PyTorch 提供了丰富的操作符，并且支持在 GPU 上运行。
动态神经网络：PyTorch 使用动态计算图，意味着你可以随时修改和构建你的神经网络。这也使得调试和网络修改更为方便。
自动求导系统：PyTorch 具有强大的自动求导系统，能够自动计算神经网络的梯度。
丰富的 API 和工具：PyTorch 提供了大量的预训练模型，损失函数，优化器等，可以帮助快速搭建和训练神经网络。
Python 优先：PyTorch 不是使用 Python 包装低级语言编写的，而是直接用 Python 实现，所以可以用 Python 来使用 PyTorch，并且能够很好的与 Python 生态系统融合。
强大的社区支持：PyTorch 有一个非常活跃的社区，可以从中找到大量的开源代码，学习资源和已解决的问题。