深度学习-torch-手写数字识别-Basic_CNN

网络模型:在这里插入图片描述
模型构建:在这里插入图片描述

代码如下:

import torch
# torch 框架下的图像处理包,可以做图像预处理
from torchvision import transforms
##torch 框架下的图像处理包,可以用来生成图片和视频数据集
from torchvision import datasets
# 这是一个训练加载器,用来把训练分成多个小组,此函数每次抛出一个小组数组,直至把所有数据进行抛出
from torch.utils.data import DataLoader
# 非线性函数relu会用到的函数库
import torch.nn.functional as F
# 优化函数库
import torch.optim as optim

# -------------prepare dataset-----------
# batch_size表示每个批次大小是60
# epoch:表示一轮数据全部跑完的过程;batch_size:每次跑的数据量;iteration:总数据/batch_size
batch_size = 60
# 为了做一个高效的图像处理,ToTensor()把H×W×C的图像转化为一个Tensor:C×H×W,并将[0,255]的数据进行归一化
# 把图片数据映射到均值为0.1307,标准差为0.3081的(0,1)分布里面,这个过程成为标准化,mean,std是对所有mnist数据集计算过的数据;
transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.1307,), (0.3081,))])
# datasets不能被实例化
# DataLoader帮助加载数据,可以被实例化
# 参数root:数据集存放位置;我的数据存放位置为:D:\PycharmProjects\dataset\mnist\MNIST\raw,../表示和myProjection在同一目录下
# 参数train:训练集设置成True,测试集设置成False;参数download:数据集没有下载设置成True,第一次用就设置成True,如果已经下载,不会再下载;
# datasets.CIFAR10也是一个分类的数据集,training set:50000 examples,test set:10000 examples,classes:10;
train_dataset = datasets.MNIST(root="../dataset/mnist/", train=True, download=True, transform=transform)
train_loader = DataLoader(train_dataset, shuffle=True, batch_size=batch_size)
test_dataset = datasets.MNIST(root="../dataset/mnist/", train=False, download=True, transform=transform)
test_loader = DataLoader(test_dataset, shuffle=True, batch_size=batch_size)
# ---------------------------------------

# ------------struct model---------------
class Net(torch.nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.conv_layer1 = torch.nn.Conv2d(1, 10, kernel_size=5, bias=False)
        self.max_pooling = torch.nn.MaxPool2d(2)
        self.conv_layer2 = torch.nn.Conv2d(10, 20, kernel_size=5, bias=False)
        self.fc = torch.nn.Linear(320, 10)

    # ---------------------------------------
    def forward(self, x):
        # 输入的数据shape是(batch_size,1,28,28),1表示图像都是单通道的灰度图,28×28表示H×W
        # 输出的数据shape是(batch_size,10),10表示手写数字识别是10分类问题
        batch_size = x.size(0)
        # 卷积,池化,卷积,池化,
        x = F.relu(self.conv_layer1(x))  # 64×1×28×28  ->  60×10×24×24
        x = F.relu(self.conv_layer2(self.max_pooling(x)))  # 60×10×24×24  ->  60×10×12×12  ->  60×20×8×8
        x = self.max_pooling(x)  # 60×20×8×8  ->  60×20×4×4
        x = x.view(batch_size, -1)  # 60×20×4×4  ->60×320
        x = self.fc(x)  # 60×320  -> 60×10
        return x
model = Net()  # 实例化模型
# ---------------------------------------

# ------------MSE+optimizer---------------
criterion = torch.nn.CrossEntropyLoss()  # 交叉熵损失,调用的时候criterion(预测值,真实值)
optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.5)  # 优化器
# ---------------------------------------

# ------------train+test---------------
def train(epoch):
    running_loss = 0.0  # 每一个batch_size计算一次平均损失
    for batch_idx, data in enumerate(train_loader, 0):  # 随机取60张图片
        inputs, target = data  # 输入图片,真实结果
        optimizer.zero_grad()  # 梯度清零
        outputs = model(inputs)  # 模型调用
        # 通过输出过程变量,发现labels是1*64,每个batch输入64张图片,每个数字图片得到的十个分类,却之对应一个labels,这样是无法计算交叉熵
        # 查阅资料发现输入的真实label为[2],pytorch会自动转化为[0,0,1,0,0,0,0,0,0,0]的one_hot进行计算交叉熵
        loss = criterion(outputs, target)  # 计算损失
        loss.backward()  # 计算梯度
        optimizer.step()  # 梯度更新
        """
        #用于查看过程变量的shape
        print('outputs_shape', outputs.shape)#60*10
        print('target_shape', target.shape)#1*60
        print('outputs', outputs)
        print('target', target)
        """
        running_loss += loss  # 每一个batch_size的损失和
        if batch_idx % 300 == 299:
            print('[%d,%5d]  loss:%.3f' % (epoch + 1, batch_idx + 1, running_loss / 300))
            running_loss = 0.0


def test():
    correct = 0  # 识别正确的图片数量
    total = 0  # 总识别图片的数量
    with torch.no_grad():  # 不计算梯度
        for data in test_loader:
            images, labels = data  # 输入图片,正确标签
            outputs = model(images)  # 调用模型
            # _表示具体的最大值value,没有用,不必关注;predicted表示获取每一行的最大值的index,即其对应的数字(从0开始)
            _, predicted = torch.max(outputs.data, dim=1)
            total += labels.size(0)  # 每次图片总数都是加一个batch_size
            """
            #用来观察过程变量的输出,加深理解
            print('images',images)#60*1*28*28
            print('outputs',outputs)#60*10
            print('labels', labels)#1*60
            print('_',_)#1*60
            print('predicted',predicted)#1*60
            """
            # 正确的数量是predicted和labels匹配数量,匹配返回值为True,等价1
            correct += (predicted == labels).sum().item()  
    print('accurancy:%.3f %%' % (correct / total * 100))


if __name__ == '__main__':
    for epoch in range(10):  # 训练10个epoch,观察测试数据集准确度的变化
        train(epoch)
        test()
# ---------------------------------------


运行结果:
在这里插入图片描述在这里插入图片描述
epoch-accurancy 图:
在这里插入图片描述

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
实验目的: 使用卷积神经网络CNN)实现对MINIST手写数字0-9的识别,掌握CNN在图像识别任务中的应用。 实验步骤: 1. 数据集准备 使用MINIST手写数字数据集,该数据集包含60000个训练样本和10000个测试样本,每个样本都是28x28像素的灰度图像。可以使用PyTorch自带的torchvision.datasets.MNIST类进行数据集的加载。 2. 数据预处理 对数据集进行预处理,包括数据增强和归一化操作。数据增强可以提高模型的泛化能力,常见的数据增强方式有旋转、平移、缩放、翻转等。归一化操作可以将像素值缩放到[0,1]之间,有利于训练模型。 ```python transform_train = transforms.Compose([ transforms.RandomRotation(10), transforms.RandomAffine(0, shear=10, scale=(0.8,1.2)), transforms.RandomHorizontalFlip(), transforms.ToTensor(), transforms.Normalize((0.1307,), (0.3081,)) ]) transform_test = transforms.Compose([ transforms.ToTensor(), transforms.Normalize((0.1307,), (0.3081,)) ]) trainset = torchvision.datasets.MNIST(root='./data', train=True, download=True, transform=transform_train) trainloader = torch.utils.data.DataLoader(trainset, batch_size=64, shuffle=True, num_workers=2) testset = torchvision.datasets.MNIST(root='./data', train=False, download=True, transform=transform_test) testloader = torch.utils.data.DataLoader(testset, batch_size=64, shuffle=False, num_workers=2) ``` 3. 模型设计与训练 使用PyTorch搭建卷积神经网络模型,对手写数字图像进行分类。具体网络结构如下: ```python class Net(nn.Module): def __init__(self): super(Net, self).__init__() self.conv1 = nn.Conv2d(1, 32, 3, 1) self.conv2 = nn.Conv2d(32, 64, 3, 1) self.dropout1 = nn.Dropout2d(0.25) self.dropout2 = nn.Dropout2d(0.5) self.fc1 = nn.Linear(9216, 128) self.fc2 = nn.Linear(128, 10) def forward(self, x): x = self.conv1(x) x = F.relu(x) x = self.conv2(x) x = F.relu(x) x = F.max_pool2d(x, 2) x = self.dropout1(x) x = torch.flatten(x, 1) x = self.fc1(x) x = F.relu(x) x = self.dropout2(x) x = self.fc2(x) output = F.log_softmax(x, dim=1) return output ``` 模型训练过程: ```python device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu") net = Net() net.to(device) criterion = nn.CrossEntropyLoss() optimizer = optim.SGD(net.parameters(), lr=0.01, momentum=0.9) for epoch in range(10): # loop over the dataset multiple times running_loss = 0.0 for i, data in enumerate(trainloader, 0): # get the inputs; data is a list of [inputs, labels] inputs, labels = data[0].to(device), data[1].to(device) # zero the parameter gradients optimizer.zero_grad() # forward + backward + optimize outputs = net(inputs) loss = criterion(outputs, labels) loss.backward() optimizer.step() # print statistics running_loss += loss.item() if i % 100 == 99: # print every 100 mini-batches print('[%d, %5d] loss: %.3f' % (epoch + 1, i + 1, running_loss / 100)) running_loss = 0.0 print('Finished Training') ``` 4. 模型测试 使用测试集对训练好的模型进行测试,并计算准确率。 ```python correct = 0 total = 0 with torch.no_grad(): for data in testloader: images, labels = data[0].to(device), data[1].to(device) outputs = net(images) _, predicted = torch.max(outputs.data, 1) total += labels.size(0) correct += (predicted == labels).sum().item() print('Accuracy of the network on the 10000 test images: %d %%' % ( 100 * correct / total)) ``` 实验结果: 使用上述模型,在MNIST数据集上进行训练,最终得到的准确率为98.94%。可以看出使用CNN实现手写数字识别是非常有效的。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值