P1：实现MNIDST手写数字识别

fqldom

已于 2023-04-05 21:34:19 修改

阅读量138

点赞数

文章标签： python pandas 机器学习

于 2023-04-03 15:24:37 首次发布

本文链接：https://blog.csdn.net/fqldom/article/details/129909580

版权

🍨 本文为🔗365天深度学习训练营 中的学习记录博客
🍦 参考文章：365天深度学习训练营-第P1周：实现mnist手写数字识别（训练营内部成员可读）
🍖 原作者：K同学啊|接辅导、项目定制

一、前期准备

语言环境：Python3.8

1.1 设置GPU

如果设备上支持GPU就使用GPU,否则使用CPU

import torch
import torch.nn as nn
import matplotlib.pyplot as plt
import torchvision
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

1.2 导入数据

torchvision.datasets是Pytorch自带的一个数据库，我们可以通过代码在线下载数据，这里使用的是torchvision.datasets中的MNIST数据集。

MNIST是一个大型的手写数字数据库，通常用于训练各种图像处理系统。包含70,000张手写数字图像: 60,000张用于训练，10,000张用于测试。图像是灰度且28x28像素的，居中，以减少预处理和加快运行。

trian_ds = torchvision.datasets.MNIST('data',
                                      train=True,
                                      transform=torchvision.transforms.ToTensor(),
                                      download=True)
test_ds = torchvision.datasets.MNIST('data',
                                      train=False,
                                      transform=torchvision.transforms.ToTensor(),
                                      download=True)

参数说明

root (string) ：数据地址
train (string) ：True-训练集，False-测试集
download (bool,optional) : 如果为True，从互联网上下载数据集，并把数据集放在root目录下。
transform (callable, optional )：这里的参数选择一个你想要的数据转化函数，直接完成数据转化
target_transform (callable,optional) ：接受目标并对其进行转换的函数/转换。

torch.utils.data.DataLoader是Pytorch自带的一个数据加载器，结合了数据集和取样器，并且可以提供多个线程处理数据集。

batch_size = 32
trian_dl = torch.utils.data.DataLoader(trian_ds, batch_size, shuffle=True)
test_dl = torch.utils.data.DataLoader(test_ds, batch_size)
imgs, labels = next(iter(trian_dl))
imgs.shape

参数说明

dataset(string) ：加载的数据集
batch_size (int,optional) ：每批加载的样本大小（默认值：1）
shuffle(bool,optional) : 如果为True，每个epoch重新排列数据。
sampler (Sampler or iterable, optional) ：定义从数据集中抽取样本的策略。可以是任何实现了 __len__ 的 Iterable。如果指定，则不得指定 shuffle 。
batch_sampler (Sampler or iterable, optional) ：类似于sampler，但一次返回一批索引。与 batch_size、shuffle、sampler 和 drop_last 互斥。
num_workers(int,optional) ：用于数据加载的子进程数。 0 表示数据将在主进程中加载（默认值：0）。
pin_memory (bool,optional) : 如果为 True，数据加载器将在返回之前将张量复制到设备CUDA 固定内存中。如果数据元素是自定义类型，或者collate_fn返回一个自定义类型的批次。
drop_last(bool,optional) : 如果数据集大小不能被批次大小整除，则设置为 True 以删除最后一个不完整的批次。如果 False 并且数据集的大小不能被批大小整除，则最后一批将保留。（默认值：False）
timeout(numeric,optional) : 设置数据读取的超时时间，超过这个时间还没读取到数据的话就会报错。（默认值：0）

worker_init_fn(callable,optional) ：如果不是 None，这将在步长之后和数据加载之前在每个工作子进程上调用，并使用工作 id（[0，num_workers - 1] 中的一个 int）的顺序逐个导入。（默认：None）

1.3 数据可视化

import numpy as np
# 指定图片大小，图像大小为20宽、5高的绘图(单位为英寸inch)
plt.figure(figsize=(20, 5))
for i, imgs in enumerate(imgs[:20]):
    # 维度缩减
    npimg = np.squeeze(imgs.numpy())
    # 将整个figure分成2行10列，绘制第i+1个子图。
    plt.subplot(2,10,i+1)
    plt.imshow(npimg, cmap=plt.cm.binary)
    plt.axis('off')

二、构建CNN网络

对于一般的CNN网络来说，都是由特征提取网络和分类网络构成，其中特征提取网络用于提取图片的特征，分类网络用于将图片进行分类。

●nn.Conv2d为卷积层，用于提取图片的特征，传入参数为输入channel，输出channel，池化核大小
●nn.MaxPool2d为池化层，进行下采样，用更高层的抽象表示图像特征，传入参数为池化核大小
●nn.ReLU为激活函数，使模型可以拟合非线性数据
●nn.Linear为全连接层，可以起到特征提取器的作用，最后一层的全连接层也可以认为是输出层，传入参数为输入特征数和输出特征数（输入特征数由特征提取网络计算得到，如果不会计算可以直接运行网络，报错中会提示输入特征数的大小）

import torch.nn.functional as F
num_class = 10 # 10个类别
class Model(nn.Module):
    def __init__(self):
        super().__init__()
        self.conv1 = nn.Conv2d(1,32,kernel_size=3)#第一层卷积层
        self.pool1 = nn.MaxPool2d(2)#第一层池化层
        self.conv2 = nn.Conv2d(32,64,kernel_size=3)#第二层卷积层
        self.pool2 = nn.MaxPool2d(2)#第二层池化层

        #分类网络
        self.fc1 = nn.Linear(1600, 64)
        self.fc2 = nn.Linear(64, num_class)
    #前向传播
    def forward(self,x):
         x = self.pool1(F.relu(self.conv1(x)))
         x = self.pool2(F.relu(self.conv2(x)))

         x = torch.flatten(x, start_dim=1)

         x = F.relu(self.fc1(x))
         x= self.fc2(x)

         return x

加载并打印模型

from torchinfo import summary
model = Model().to(device)
summary(model)

=================================================================
Layer (type:depth-idx) Param #
=================================================================
Model --
├─Conv2d: 1-1 320
├─MaxPool2d: 1-2 --
├─Conv2d: 1-3 18,496
├─MaxPool2d: 1-4 --
├─Linear: 1-5 102,464
├─Linear: 1-6 650
=================================================================
Total params: 121,930
Trainable params: 121,930
Non-trainable params: 0
=================================================================