动手学深度学习：6.4 循环神经网络的从零开始实现

最新推荐文章于 2024-06-29 01:16:41 发布

AI_Younger_Man

最新推荐文章于 2024-06-29 01:16:41 发布

阅读量663

点赞数

分类专栏： # 深度学习

本文链接：https://blog.csdn.net/qq_38888209/article/details/107842668

版权

本文将详细讲解如何从零开始实现一个基于字符级的循环神经网络（RNN），并利用周杰伦歌词数据集进行训练，以创作新的歌词。首先介绍数据集的读取和预处理过程。

摘要由CSDN通过智能技术生成

6.4 循环神经网络的从零开始实现

在本节中，我们将从零开始实现一个基于字符级循环神经网络的语言模型，并在周杰伦专辑歌词数据集上训练一个模型来进行歌词创作。首先，我们读取周杰伦专辑歌词数据集：

import time
import math
import numpy as np
import torch
from torch import nn, optim
import torch.nn.functional as F

import sys
sys.path.append("…")
import d2lzh_pytorch as d2l
device = torch.device(‘cuda’ if torch.cuda.is_available() else ‘cpu’)

(corpus_indices, char_to_idx, idx_to_char, vocab_size) = d2l.load_data_jay_lyrics()Copy to clipboardErrorCopied

6.4.1 one-hot向量

为了将词表示成向量输入到神经网络，一个简单的办法是使用one-hot向量。假设词典中不同字符的数量为 $i$ 的元素设成1。该向量就是对原字符的one-hot向量。下面分别展示了索引为0和2的one-hot向量，向量长度等于词典大小。

pytorch没有自带one-hot函数(新版好像有了)，下面自己实现一个

def one_hot(x, n_class, dtype=torch.float32): 
    # X shape: (batch), output shape: (batch, n_class)
    x = x.long()
    res = torch.zeros(x.shape[0], n_class, dtype=dtype, device=x.device)
    res.scatter_(1, x.view(-1, 1), 1)
    return res

x = torch.tensor([0, 2])
one_hot(x, vocab_size)Copy to clipboardErrorCopied

我们每次采样的小批量的形状是(批量大小, 时间步数)。下面的函数将这样的小批量变换成数个可以输入进网络的形状为(批量大小, 词典大小)的矩阵，矩阵个数等于时间步数。也就是说，时间步 $d$ 为输入个数，即one-hot向量长度（词典大小）。

# 本函数已保存在d2lzh_pytorch包中方便以后使用

def to_onehot(X, n_class):

# X shape: (batch, seq_len), output: seq_len elements of (batch, n_class)

return [one_hot(X[:, i], n_class) for i in range(X.shape[1])]

X = torch.arange(10).view(2, 5)
inputs = to_onehot(X, vocab_size)
print(len(inputs), inputs[0].shape)Copy to clipboardErrorCopied

输出：

5 torch.Size([2, 1027])Copy to clipboardErrorCopied

6.4.2 初始化模型参数

接下来，我们初始化模型参数。隐藏单元个数 num_hiddens是一个超参数。

num_inputs, num_hiddens, num_outputs = vocab_size, 256, vocab_size

print(‘will use’, device)

def get_params():
def _one(shape):
ts = torch.tensor(np.random.normal(0, 0.01, size=shape), device=device, dtype=torch.float32)
return torch.nn.Parameter(ts, requires_grad=