基于pytorch与opencv的手写汉字识别系统

手写汉字识别

b站地址:https://www.bilibili.com/video/BV1384y1P76m/?vd_source=65a01bd1c4223f2aede873e40c0cdb3e

前言

本次实验的任务是汉字识别。使用pytorch深度学习框架和opencv在HWDB手写汉字数据集进行实验。由于数据集过于庞大,这里只选取了前1311个类作为实验。文末附有源码下载地址。

效果预览

数据集介绍

HWDB是一个手写汉字数据集,该数据集来自于中科院自动化研究所,一共有三个版本,分别为HWDB1.0、HWDB1.1和HWDB1.2。
本文使用的数据集共有1311种汉字,大概共有几十万张图片,其中20%的图片用于验证,80%的图片用于训练。图片的格式为png,下图为部分数据集图片。
在这里插入图片描述

模型介绍(ResNet18)

resnet18的结构图如下所示:
在这里插入图片描述
pytorch内部自带resnet18模型,不过原始的模型最后的分类数为1000,而本文的汉字类别数为1311,所以需要修改模型的最后一层全连接层,代码如下所示:

device=torch.device('cuda:0' if torch.cuda.is_available() else 'cpu')
#加载resnet18模型
net=models.resnet18(pretrained=False)
net.conv1=nn.Conv2d(1, 64, kernel_size=(7, 7), stride=(2, 2), padding=(3, 3), bias=False)
#修改模型最后一层
net.fc=nn.Linear(in_features=512, out_features=1311, bias=True)
net=net.to(device)

读取数据

使用dataset读取数据代码如下:

from torch.utils.data import DataLoader,Dataset
import cv2
import numpy as np
import torch
import imgaug.augmenters as iaa
import random
#读取训练图片类
class Mydataset(Dataset):
    def __init__(self,lines,train=True):
        super(Mydataset, self).__init__()
        #储存图像所有路径
        self.lines=lines
        self.train=train


    def __getitem__(self, item):
        """读取图像,并转换成rgb格式"""
        #图片路径
        img_path=self.lines[item].strip().split()[0]
        #图片标签
        img_lab=self.lines[item].strip().split()[1
  • 17
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
MNIST是深度学习领域的一个经典数据集,包含了手写数字0-9的灰度图像,每张图像的尺寸为28×28像素。基于这个数据集,我们可以训练一个模型来实现手写数字的识别。 下面是一个基于PyTorch实现的MNIST手写数字识别代码的分析: ```python import torch import torch.nn as nn import torch.optim as optim import torchvision import torchvision.transforms as transforms ``` 首先,我们需要导入PyTorch及其相关的库,其中包括了神经网络相关的模块、优化器模块、数据处理模块等。 ```python transform = transforms.Compose( [transforms.ToTensor(), transforms.Normalize((0.5,), (0.5,))]) trainset = torchvision.datasets.MNIST(root='./data', train=True, download=True, transform=transform) trainloader = torch.utils.data.DataLoader(trainset, batch_size=64, shuffle=True, num_workers=2) testset = torchvision.datasets.MNIST(root='./data', train=False, download=True, transform=transform) testloader = torch.utils.data.DataLoader(testset, batch_size=64, shuffle=False, num_workers=2) ``` 接着,我们对MNIST数据集进行预处理,将其转化为一个可用于训练的数据集和测试集,并进行标准化处理。 ```python class Net(nn.Module): def __init__(self): super(Net, self).__init__() self.conv1 = nn.Conv2d(1, 10, kernel_size=5) self.conv2 = nn.Conv2d(10, 20, kernel_size=5) self.pool = nn.MaxPool2d(2) self.fc1 = nn.Linear(320, 50) self.fc2 = nn.Linear(50, 10) def forward(self, x): x = self.pool(torch.relu(self.conv1(x))) x = self.pool(torch.relu(self.conv2(x))) x = x.view(-1, 320) x = torch.relu(self.fc1(x)) x = self.fc2(x) return x ``` 然后,我们定义了一个卷积神经网络模型。这个模型包括了两个卷积层和两个全连接层,其中卷积层用于提取图像特征,而全连接层则用于分类任务。 ```python net = Net() criterion = nn.CrossEntropyLoss() optimizer = optim.SGD(net.parameters(), lr=0.001, momentum=0.9) ``` 接着,我们定义了损失函数和优化器,其中损失函数采用交叉熵损失,优化器采用随机梯度下降(SGD)方法。 ```python for epoch in range(10): running_loss = 0.0 for i, data in enumerate(trainloader, 0): inputs, labels = data optimizer.zero_grad() outputs = net(inputs) loss = criterion(outputs, labels) loss.backward() optimizer.step() running_loss += loss.item() if i % 100 == 99: print('[%d, %5d] loss: %.3f' % (epoch + 1, i + 1, running_loss / 100)) running_loss = 0.0 print('Finished Training') ``` 最后,我们使用训练集对模型进行训练,并在每个epoch结束时输出损失值。训练完成后,我们可以使用测试集来评估模型的性能。 这就是一个基于PyTorch实现的MNIST手写数字识别代码的分析。通过这个例子,我们可以了解到如何使用PyTorch来构建、训练和评估一个深度学习模型。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值