深度学习-手写数字图片识别

最新推荐文章于 2024-08-21 17:50:19 发布

摸森堡

最新推荐文章于 2024-08-21 17:50:19 发布

阅读量81

点赞数 1

分类专栏：深度学习文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/Tianqinse/article/details/141385000

版权

深度学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

通过torch.nn.Module基类，实现了一个简单的全连接（feedforward）神经网络，对一系列手写数字图片进行识别训练，然后用测试数据进行测试，实现一个能够识别手写数字图片的神经网络模型。

import torch
from torch.utils.data import DataLoader
from torchvision import transforms
from torchvision.datasets import MNIST
import matplotlib.pyplot as plt

    # 设置网络参数 
class Net(torch.nn.Module):#torch.nn.Module基类，实现了一个简单的全连接（feedforward）神经网络

    def __init__(self):
        super().__init__()
        self.fc1 = torch.nn.Linear(28*28, 64)   #第一个全连接层，输入特征维度为28*28（假设输入图像是28x28像素的灰度图，因此被展平为784维的向量），输出特征维度为64。
        self.fc2 = torch.nn.Linear(64, 64)
        self.fc3 = torch.nn.Linear(64, 64)
        self.fc4 = torch.nn.Linear(64, 10)  #第四个全连接层，也称为输出层，输入特征维度为64，输出特征维度为10（假设这是一个10分类问题，如MNIST手写数字识别）
    
    def forward(self, x):   #通过一系列的层进行传播，每一层都会对数据进行一定的变换
        x = torch.nn.functional.relu(self.fc1(x))   #输入x（假设已经被展平为784维的向量）通过第一个全连接层self.fc1，然后应用ReLU非线性激活函数
        x = torch.nn.functional.relu(self.fc2(x))   #数据通过第二个全连接层
        x = torch.nn.functional.relu(self.fc3(x))
        x = torch.nn.functional.log_softmax(self.fc4(x), dim=1) #数据通过第四个全连接层，应用log_softmax函数。log_softmax是softmax函数的对数形式，它可以将输出转换为概率分布的形式
        return x


def get_data_loader(is_train):
    to_tensor = transforms.Compose([transforms.ToTensor()])
    data_set = MNIST("", is_train, transform=to_tensor, download=True)
    return DataLoader(data_set, batch_size=15, shuffle=True)    #使用迭代器来封装data_set，以便更方便地批量加载数据。同时还提供了打乱数据等功能，以便看到数据的不同组合，提高模型泛化能力。

# 对模型准确性的评估
def evaluate(test_data, net):
    n_correct = 0   # 初始化正确预测的数量
    n_total = 0     # 初始化总预测的数量
    with torch.no_grad():   # 在评估模式下运行，关闭梯度计算，以节省内存和加速计算
        for (x, y) in test_data: #y为一个批次的特征
            outputs = net.forward(x.view(-1, 28*28))    # 将输入数据x重塑为适合网络的形状，并通过网络前向传播
            for i, output in enumerate(outputs):    # 遍历每个输出
                if torch.argmax(output) == y[i]:    # 检查预测是否正确
                    n_correct += 1  # 如果正确，则增加正确预测的数量
                n_total += 1    # 无论预测是否正确，都增加总预测的数量
    return n_correct / n_total  # 返回准确率


def main():

    train_data = get_data_loader(is_train=True)
    test_data = get_data_loader(is_train=False)
    net = Net()
    
    print("initial accuracy:", evaluate(test_data, net))
    optimizer = torch.optim.Adam(net.parameters(), lr=0.001)    #创建了一个Adam优化器实例，用于更新网络的参数（net.parameters()，置了学习率为0.001
    for epoch in range(2):  #训练过程将重复2次（epoch），每个epoch代表整个训练数据集的正向和反向传播过程完成一次
        for (x, y) in train_data:
            net.zero_grad() #清除之前所有计算得到的梯度值
            output = net.forward(x.view(-1, 28*28))
            loss = torch.nn.functional.nll_loss(output, y)  #计算输出output和真实标签y之间的负对数似然损失
            loss.backward() #根据损失函数计算得到的损失值，进行反向传播，计算网络中每个参数的梯度。
            optimizer.step()    #根据计算得到的梯度，更新网络的参数。
        print("epoch", epoch, "accuracy:", evaluate(test_data, net))

    for (n, (x, _)) in enumerate(test_data):    #对测试数据集进行遍历，每次返回一个元组，包含两个元素：输入数据x和对应标签y，用enumerate来获取索引n
        if n > 3:   #只处理测试数据集中的前四个样本（索引从0到3）
            break
        predict = torch.argmax(net.forward(x[0].view(-1, 28*28)))   #通过神经网络net对输入数据x进行前向传播，并获取预测结果，torch.argmax(...)用于获取预测概率最高的类别的索引，即预测标签。
        plt.figure(n)
        plt.imshow(x[0].view(28, 28))   #将展平的图像重新塑形为28x28的二维数组，并使用imshow函数显示它
        plt.title("prediction: " + str(int(predict)))
    plt.show()


if __name__ == "__main__":
    main()

参考链接：60分钟Pytorch从入门到精通【第五期】！今天来讲【前向传播】！对零基础小白超友好的Pytorch教程~_哔哩哔哩_bilibili

摸森堡

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深度学习-手写数字图片识别

通过torch.nn.Module基类，实现了一个简单的全连接（feedforward）神经网络，对一系列手写数字图片进行识别训练，然后用测试数据进行测试，实现一个能够识别手写数字图片的神经网络模型。
复制链接

扫一扫

专栏目录