RNN手写字体分类

最新推荐文章于 2023-08-12 23:42:29 发布

mez_Blog

最新推荐文章于 2023-08-12 23:42:29 发布

阅读量515

点赞数 1

分类专栏：深度学习文章标签：深度学习机器学习神经网络 RNN pytorch

本文链接：https://blog.csdn.net/mez_Blog/article/details/119815767

版权

深度学习专栏收录该内容

26 篇文章 3 订阅

订阅专栏

循环神经网络RNN不仅可以用来处理序列数据，还可以用来处理图像数据，这是因为一张图像可以看做一组很长的像素点组成的序列。

下面将使用RNN对MINIST数据集建立分类器，首先导入需要的库和相关模块。

import numpy as np
import  pandas as pd
import  matplotlib.pyplot as plt
import time
import copy
import torch
from torch import nn
import torch.nn.functional  as F
import  torch.optim as optim
import  torchvision
import torch.utils.data as Data
from torchvision import transforms
import hiddenlayer as hl

在导入数据进行数据准备工作时，可以直接从torchvision库的datasets模块导入MINIST手写字体的训练数据集合测试数据集，然后使用Data.DataLoader()函数将两个数据集定义为数据加载器，其中每个batch包含64张图像，最后得到训练集数据加载器，其中每个batch包含64张图像，最后得到训练集数据加载器train_loader，与测试集数据加载器test_loader，程序如下：

train_data =torchvision.datasets.MNIST(
    root="./data/MINIST",train=True,transform=transforms.ToTensor(),
    download=False
)
train_loader=Data.DataLoader(
    dataset=train_data,batch_size=64,shuffle=True,num_workers=2
)
test_data=torchvision.datasets.MNIST(
    root="./data/MNIST",train=False,transform=transforms.ToTensor(),
    download=False
)
test_loader=Data.DataLoader(
    dataset=test_data,batch_size=64,shuffle=True,num_workers=2
)

在导入的数据集中，训练集包含60000张28*28的灰度图像，测试机包含10000张28*28的灰度图像。

搭建一个RNN分类器首先需要定义一个RNNimc类，如下程序所示：

class RNNimc(nn.Module):
    def __init__(self,input_dim,hidden_dim,layer_dim,output_dim):
        """

        :param input_dim: 输入数据的维度
        :param hidden_dim: RNN神经元个数
        :param layer_dim: RNN层数
        :param output_dim: 隐藏层输出的维度
        """
        super(RNNimc,self).__init__()
        self.hidden_dim=hidden_dim
        self.layer_dim=layer_dim
        self.rnn=nn.RNN(input_dim,hidden_dim,layer_dim,batch_first=True,
                        nonlinearity='relu')
        self.fc1=nn.Linear(hidden_dim,output_dim)
    def forward(self,x):
        out, h_n = self.rnn(x, None)
        out = self.fc1(out[:, -1, :])
        return out

上面程序定义了RNNimc类，在调用时需要输入4个参数，参数input_dim表示输入数据的维度，针对图像分类器，其值是图片中每行数据像素点量，针对手写字体数据其值等于28；参数hidden_dim表示搭建RNN网络层中包含神经元的个数；参数layer_dim表示在RNN网络层中有多少层RNN神经元；参数output_dim则表示在使用全连接层进行分类时输出的维度，可以使用数据的类别数表示，MNIST数据集表示为10.

在RNNimc类调用nn.RNN（）函数时，参数batch_first=True表示使用的数据集中batch在数据的第一个维度，参数nonlinearity='relu'表示RNN层使用的激活函数为ReLU函数。从RNNimc类的forward（）函数中，发现网络的self.run()层的输入由两个参数，第一个参数为需要分析的数据x，第二个参数则为隐藏层的初始输出，这里使用None代替，表示使用全0进行初始化。而输出则包含两个参数，其中out表示RNN最后一层的输出特征，h_n表示隐藏层的输出。在将RNN层和全连接分类层连接时，将全连接层网络作用于最后一个时间点的out输出。

定义好RNNimc类之后，则定义相应的参数取值，再调用该函数类得到网络结构，程序如下：

上面的程序可得到如下的输出：

在定义的MyRNNimc网络中，包含两个层级，一个是包含128个RNN神经元的RNN层，另一个是输入128个神经元，输出10个神经元的全连接层。针对网络结构将使用HiddenLayer库将其可视化，程序如下所示：

对定义好的网络模型使用训练集进行训练，需要定义优化器和顺势函数，优化器使用torch.optim.RMSprop()定义，损失函数这使用交叉熵顺势nn.CrossEntropyLoss()函数定义，并且使用训练集对网络训练30个epoch。

optimizer=torch.optim.RMSprop(MyRNNimc.parameters(),lr=0.0003)
criterion=nn.CrossEntropyLoss()#损失函数
train_loss_all=[]
train_acc_all=[]
test_loss_all=[]
test_acc_all=[]
num_epochs=30
for epoch in range(num_epochs):
    print('Epoch {}/{}'.format(epoch,num_epochs-1))
    MyRNNimc.train() #设置模式为训练模式
    corrects=0
    train_num=0
    for step,(b_x,b_y) in enumerate(train_loader):
        xdata = b_x.view(-1,28,28)
        output=MyRNNimc(xdata)
        pre_lab=torch.argmax(output,1)
        loss=criterion(output,b_y)
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        loss+=loss.item()*b_x.size(0)
        corrects+=torch.sum(pre_lab==b_y.data)
        train_num+=b_x.size(0)
    train_loss_all.append(loss/train_num)
    train_acc_all.append(corrects.double().item()/train_num)
    print('{} Train Loss:{:.4f} Train Acc:{:.4f}'.format(
        epoch,train_loss_all[-1],train_acc_all[-1]
    ))
    MyRNNimc.eval()
    corrects=0
    test_num=0
for step,(b_x,b_y) in enumerate(test_loader):
        xdata=b_x.view(-1,28,28)
        output=MyRNNimc(xdata)
        pre_lab=torch.argmax(output,1)
        loss=criterion(output,b_y)
        loss+=loss.item()*b_x.size(0)
        corrects+=torch.sum(pre_lab==b_y.data)
        test_num+=b_x.size(0)
test_loss_all.append(loss/test_num)
test_acc_all.append(corrects.double().item()/test_num)
print('{} Test Loss:{:.4f} Test Acc:{:.4f}'.format(
        epoch,test_loss_all[-1],test_acc_all[-1]
))

在上面的程序中，没使用训练集对网络进行一轮训练，都会使用测试机来测试当前网络的分类效果，针对训练集和测试机的每个epoch顺势和预测精度，都保存在train_loss_all、train_acc_all、test_acc_all、test_loss_all四个列表中。在每个epoch中使用MyRNNimc.train（）将网络切换为训练模式，使用MyRNNimc.eval()将网络切换为验证模式。针对网络的输入x，需要从图像数据集[batch,channel,height,width]转换为[batch,time_step,input_dim]，即从[64,1,28,28]转换为[64,28,28].