深度学习Week1——实现mnist手写数字识别

最新推荐文章于 2024-08-15 11:31:36 发布

ET、小涵

最新推荐文章于 2024-08-15 11:31:36 发布

阅读量1k

点赞数 20

文章标签：深度学习人工智能 python

本文链接：https://blog.csdn.net/Ying_xiaotao/article/details/135378245

版权

本文详细记录了作者在365天深度学习训练营中，使用PyTorch构建CNN模型实现MNIST手写数字识别的过程，包括数据预处理、模型构建、训练与测试，以及结果可视化和学习收获。

摘要由CSDN通过智能技术生成

文章目录
深度学习Week1——实现mnist手写数字识别
一、前言
二、我的环境
三、前期工作
1、配置GPU
2、导入数据
3、数据可视化
四、构建CNN网络
五、训练模型
1、设置超参数
2、编写训练函数
3、编写测试函数
六、结果可视化
七、我的收获

一、前言

🍨 本文为🔗365天深度学习训练营中的学习记录博客
🍖 原作者：K同学啊 | 接辅导、项目定制

MNIST手写数字数据集来源于是美国国家标准与技术研究所，是著名的公开数据集之一。数据集中的数字图片是由250个不同职业的人纯手写绘制，数据集获取的网址为：http://yann.lecun.com/exdb/mnist/，但我们一般可以采用(train_images, train_labels), (test_images, test_labels) = datasets.mnist.load_data()这行代码直接调用。

同时由于我的设备没有GPU，因此第一次加上device = torch.device("cuda" if torch.cuda.is_available() else "cpu")代码检测。后续不进行检测

二、我的环境

电脑系统：Windows 10
语言环境：Python 3.11.3
编译器：Pycharm2023.2.3
深度学习环境：Pytorch
显卡及显存：无

三、前期工作

1、导入库并配置GPU

import torch
import numpy as np
from matplotlib import pyplot as plt
import torch.nn as nn
import torchvision

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
device

输出：

device(type='cpu')

2、导入数据

使用dataset下载MNIST数据集，并划分好训练集与测试集

使用dataloader加载数据，并设置好基本的batch_size

torchvision.datasets是Pytorch自带的一个数据库，我们可以通过代码在线下载数据，这里使用的是torchvision.datasets中的MNIST数据集。

函数原型：

torchvision.datasets.MNIST(root, train=True, transform=None, target_transform=None, download=False)

train_ds = torchvision.datasets.MNIST('data',
                                      train = True,
                                      transform = torchvision.transforms.ToTensor(),
                                      download = True)

test_ds = torchvision.datasets.MNIST('data',
                                     train = False,
                                     transform = torchvision.transforms.ToTensor(),
                                     download = True)

batch_size = 64

train_dl = torch.utils.data.DataLoader(train_ds,
                                       batch_size = batch_size,
                                       shuffle = True)

test_dl = torch.utils.data.DataLoader(test_ds,
                                      batch_size = batch_size)

imgs, labels = next(iter(test_dl))

imgs.shape

torchvision是PyTorch的一个用于计算机视觉任务的库，而PyTorch是一个深度学习框架。这两者的结合使得加载和处理图像数据变得非常方便。

输出：

torch.Size([64, 1, 28, 28])

3、数据可视化

squeeze()函数的功能是从矩阵shape中，去掉维度为1的。例如一个矩阵是的shape是（5, 1），使用过这个函数后，结果为（5, ）。

# 指定图片大小，图像大小为20宽、5高的绘图(单位为英寸inch)
plt.figure(figsize = (20, 5))
for i, imgs in enumerate(imgs[:100]):
    npimg = np.squeeze(imgs.numpy())
    
    plt.subplot(10, 10, i + 1)
    plt.imshow(npimg, cmap = plt.cm.binary)
    plt.axis('off')

结果：

在这里插入图片描述

四、构建简单的CNN网络

import torch.nn.functional as F

num_classes = 10  # 图片的类别数

class Model(nn.Module):
     def __init__(self):
        super().__init__()
         # 特征提取网络
        self.conv1 = nn.Conv2d(1, 32, kernel_size=3)  # 第一层卷积,卷积核大小为3*3
        self.pool1 = nn.MaxPool2d(2)                  # 设置池化层，池化核大小为2*2
        self.conv2 = nn.Conv2d(32, 64, kernel_size=3) # 第二层卷积,卷积核大小为3*3   
        self.pool2 = nn.MaxPool2d(2) 
                                      
        # 分类网络
        self.fc1 = nn.Linear(1600, 64)          
        self.fc2 = nn.Linear(64, num_classes)
     # 前向传播
     def forward(self, x):
        x = self.pool1(F.relu(self.conv1(x)))     
        x = self.pool2(F.relu(self.conv2(x)))

        x = torch.flatten(x, start_dim=1)

        x = F.relu(self.fc1(x))
        x = self.fc2(x)
       
        return x

加载并打印模型

from torchinfo import summary

model = Model().to(device)

summary(model)

输出：

Model                                    --
├─Conv2d: 1-1                            320
├─MaxPool2d: 1-2                         --
├─Conv2d: 1-3                            18,496
├─MaxPool2d: 1-4                         --
├─Linear: 1-5                            102,464
├─Linear: 1-6                            650
=================================================================
Total params: 121,930
Trainable params: 121,930
Non-trainable params: 0
=================================================================

五、训练模型

1、设置超参数

loss_fn = nn.CrossEntropyLoss() # 创建损失函数
learn_rate = 1e-2 # 学习率
opt = torch.optim.SGD(model.parameters(), lr = learn_rate)

2、编写训练函数

其核心思想是在每个训练迭代中，它从数据加载器中获取一个小批量的训练数据（包含图像和标签），将数据传递给模型进行前向传播，计算损失，然后通过反向传播更新模型的参数。最后，它记录并返回训练的准确率和损失。

简要概括：

从数据加载器中获取小批量训练数据。
将数据传递给模型进行前向传播，计算预测值。
计算预测值与真实标签之间的损失。
使用反向传播更新模型参数。
记录并返回训练准确率和损失。

# 训练循环
def train(dataloader, model, loss_fn, optimizer):
    size = len(dataloader.dataset)  # 训练集的大小，一共60000张图片
    num_batches = len(dataloader)   # 批次a目，1875（60000/32）

    train_loss, train_acc = 0, 0  # 初始化训练损失和正确率
    
    for X, y in dataloader:  # 获取图片及其标签
        X, y = X.to(device), y.to(device)
        
        # 计算预测误差
        pred = model(X)          # 网络输出
        loss = loss_fn(pred, y)  # 计算网络输出和真实值之间的差距，targets为真实值，计算二者差值即为损失
        
        # 反向传播
        optimizer.zero_grad()  # grad属性归零
        loss.backward()        # 反向传播
        optimizer.step()       # 每一步自动更新
        
        # 记录acc与loss
        train_acc  += (pred.argmax(1) == y).type(torch.float).sum().item()
        train_loss += loss.item()
            
    train_acc /= size
    train_loss /= num_batches

    return train_acc, train_loss

3、编写测试函数

下面这段代码主要是用于测试（评估）深度学习模型性能的函数。在每个测试迭代中，它从测试数据加载器中获取一个小批量的数据（包含图像和标签），通过模型进行前向传播，计算损失，然后记录测试准确率和损失。

简要概括：

从测试数据加载器中获取小批量测试数据。
将数据传递给模型进行前向传播，得到预测值。
计算预测值与真实标签之间的损失。
记录并返回测试准确率和损失。

值得注意的是，在测试时使用了 with torch.no_grad():，这意味着在这个上下文环境中，梯度不会被计算和存储。这样做是为了节省计算资源，因为在测试阶段我们通常只关心模型的推理性能而不需要进行参数更新。

def test (dataloader, model, loss_fn):
    size = len(dataloader.dataset)  # 测试集的大小，一共10000张图片
    num_batches = len(dataloader)          # 批次数目，313（10000/32=312.5，向上取整）
    test_loss, test_acc = 0, 0
    
    # 当不进行训练时，停止梯度更新，节省计算内存消耗
    with torch.no_grad():
        for imgs, target in dataloader:
            imgs, target = imgs.to(device), target.to(device)
            
            # 计算loss
            target_pred = model(imgs)
            loss = loss_fn(target_pred, target)
            
            test_loss += loss.item()
            test_acc  += (target_pred.argmax(1) == target).type(torch.float).sum().item()

    test_acc /= size
    test_loss /= num_batches

    return test_acc, test_loss

4、正式训练

主要是一个简单的训练循环，用于训练和评估深度学习模型多个epochs。在每个epoch中，它分别进行训练和测试，并记录训练集和测试集的准确率以及损失。最后，将每个epoch的结果打印出来。

epochs     = 5
train_loss = []
train_acc  = []
test_loss  = []
test_acc   = []

for epoch in range(epochs):
    model.train()
    epoch_train_acc, epoch_train_loss = train(train_dl, model, loss_fn, opt)
    
    model.eval()
    epoch_test_acc, epoch_test_loss = test(test_dl, model, loss_fn)
    
    train_acc.append(epoch_train_acc)
    train_loss.append(epoch_train_loss)
    test_acc.append(epoch_test_acc)
    test_loss.append(epoch_test_loss)
    
    template = ('Epoch:{:2d}, Train_acc:{:.1f}%, Train_loss:{:.3f}, Test_acc:{:.1f}%，Test_loss:{:.3f}')
    print(template.format(epoch + 1, epoch_train_acc * 100, epoch_train_loss, epoch_test_acc * 100, epoch_test_loss))
print('Done')

六、结果可视化

import matplotlib.pyplot as plt
#隐藏警告
import warnings
warnings.filterwarnings("ignore")               #忽略警告信息
plt.rcParams['font.sans-serif'] = ['Microsoft YaHei'] # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False      # 用来正常显示负号
plt.rcParams['figure.dpi'] = 100        #分辨率

epochs_range = range(epochs)

plt.figure(figsize = (12, 3))
plt.subplot(1, 2, 1)

plt.plot(epochs_range, train_acc, label = 'Training Accuracy')
plt.plot(epochs_range, test_acc, label = 'Test Accuracy')
plt.legend(loc = 'lower right')
plt.title('Training and Validation Accuracy')

plt.subplot(1, 2, 2)
plt.plot(epochs_range, train_loss, label = 'Training Loss')
plt.plot(epochs_range, test_loss, label = 'Test Loss')
plt.legend(loc = 'upper right')
plt.title('Training and Validation Loss')
plt # 因为我是用的Jupyter，因此不用plt.show()

结果：
在这里插入图片描述

这两个图表显示了深度学习模型的训练和验证准确性以及损失。左侧图表表示随着训练时间的增加，训练和测试准确性都在提高，右侧图表显示训练和测试损失随着时间的推移都在下降，这意味着模型正在学习并改进其预测。

从图中可以看出，模型在训练和测试准确性上都达到了0.98左右，而且训练和测试损失都降到了0.1以下，这说明模型已经很好地拟合了数据，没有明显的过拟合或欠拟合的问题。

七、我的收获

通过本周学习，我有以下收获：

了解Pytorch，并使用Pytorch构建一个深度学习程序
了解什么是深度学习
学习文中提到的一部分函数方法，并根据自己的理解进行了修改和注释

再接再厉，继续进步！

ET、小涵

关注

20
点赞
踩
22

收藏

觉得还不错? 一键收藏
1
评论
深度学习Week1——实现mnist手写数字识别

🍨 本文为🔗365天深度学习训练营中的学习记录博客K同学啊 | 接辅导、项目定制MNIST手写数字数据集来源于是美国国家标准与技术研究所，是著名的公开数据集之一。，但我们一般可以采用这行代码直接调用。同时由于我的设备没有GPU，因此第一次加上代码检测。后续不进行检测。
复制链接

扫一扫