基于pytorch与opencv的手写汉字识别系统

最新推荐文章于 2024-05-02 22:37:28 发布

Q1735375343

最新推荐文章于 2024-05-02 22:37:28 发布

阅读量1k

点赞数 17

文章标签： pytorch opencv 人工智能

本文链接：https://blog.csdn.net/2302_82079084/article/details/135147555

版权

本文介绍了一个基于Pytorch深度学习框架和OpenCV的手写汉字识别系统，利用HWDB数据集进行实验。选取了1311个类别的汉字，使用ResNet18模型，并展示训练过程及达到0.95以上的验证集准确率。

摘要由CSDN通过智能技术生成

文章目录

手写汉字识别

b站地址：https://www.bilibili.com/video/BV1384y1P76m/?vd_source=65a01bd1c4223f2aede873e40c0cdb3e

前言

本次实验的任务是汉字识别。使用pytorch深度学习框架和opencv在HWDB手写汉字数据集进行实验。由于数据集过于庞大，这里只选取了前1311个类作为实验。文末附有源码下载地址。

效果预览

数据集介绍

HWDB是一个手写汉字数据集，该数据集来自于中科院自动化研究所，一共有三个版本，分别为HWDB1.0、HWDB1.1和HWDB1.2。
本文使用的数据集共有1311种汉字，大概共有几十万张图片，其中20%的图片用于验证，80%的图片用于训练。图片的格式为png，下图为部分数据集图片。
在这里插入图片描述

模型介绍(ResNet18)

resnet18的结构图如下所示：
在这里插入图片描述
pytorch内部自带resnet18模型，不过原始的模型最后的分类数为1000，而本文的汉字类别数为1311，所以需要修改模型的最后一层全连接层，代码如下所示：

device=torch.device('cuda:0' if torch.cuda.is_available() else 'cpu')
#加载resnet18模型
net=models.resnet18(pretrained=False)
net.conv1=nn.Conv2d(1, 64, kernel_size=(7, 7), stride=(2, 2), padding=(3, 3), bias=False)
#修改模型最后一层
net.fc=nn.Linear(in_features=512, out_features=1311, bias=True)
net=net.to(device)

读取数据

使用dataset读取数据代码如下：

from torch.utils.data import DataLoader,Dataset
import cv2
import numpy as np
import torch
import imgaug.augmenters as iaa
import random
#读取训练图片类
class Mydataset(Dataset):
    def __init__(self,lines,train=True):
        super(Mydataset, self).__init__()
        #储存图像所有路径
        self.lines=lines
        self.train=train


    def __getitem__(self, item):
        """读取图像,并转换成rgb格式"""
        #图片路径
        img_path=self.lines[item].strip().split()[0]
        #图片标签
        img_lab=self.lines[item].strip().split(