手写汉字识别
b站地址:https://www.bilibili.com/video/BV1384y1P76m/?vd_source=65a01bd1c4223f2aede873e40c0cdb3e
前言
本次实验的任务是汉字识别。使用pytorch深度学习框架和opencv在HWDB手写汉字数据集进行实验。由于数据集过于庞大,这里只选取了前1311个类作为实验。文末附有源码下载地址。
效果预览
数据集介绍
HWDB是一个手写汉字数据集,该数据集来自于中科院自动化研究所,一共有三个版本,分别为HWDB1.0、HWDB1.1和HWDB1.2。
本文使用的数据集共有1311种汉字,大概共有几十万张图片,其中20%的图片用于验证,80%的图片用于训练。图片的格式为png,下图为部分数据集图片。
模型介绍(ResNet18)
resnet18的结构图如下所示:
pytorch内部自带resnet18模型,不过原始的模型最后的分类数为1000,而本文的汉字类别数为1311,所以需要修改模型的最后一层全连接层,代码如下所示:
device=torch.device('cuda:0' if torch.cuda.is_available() else 'cpu')
#加载resnet18模型
net=models.resnet18(pretrained=False)
net.conv1=nn.Conv2d(1, 64, kernel_size=(7, 7), stride=(2, 2), padding=(3, 3), bias=False)
#修改模型最后一层
net.fc=nn.Linear(in_features=512, out_features=1311, bias=True)
net=net.to(device)
读取数据
使用dataset读取数据代码如下:
from torch.utils.data import DataLoader,Dataset
import cv2
import numpy as np
import torch
import imgaug.augmenters as iaa
import random
#读取训练图片类
class Mydataset(Dataset):
def __init__(self,lines,train=True):
super(Mydataset, self).__init__()
#储存图像所有路径
self.lines=lines
self.train=train
def __getitem__(self, item):
"""读取图像,并转换成rgb格式"""
#图片路径
img_path=self.lines[item].strip().split()[0]
#图片标签
img_lab=self.lines[item].strip().split(