中文MNIST数据集的图像分类（准确度99.93%）

最新推荐文章于 2025-07-17 07:54:01 发布

原创

最新推荐文章于 2025-07-17 07:54:01 发布 · 4k 阅读

23 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #python #tensorflow #分类 #数据挖掘

该博客介绍了如何使用Python和TensorFlow对中文MNIST数据集进行图像分类。内容包括数据集的介绍、数据预处理、训练集与测试集的划分、数据归一化、引入预训练模型以及模型的训练和性能评估，最终实现高达99.93%的分类准确率。

数据集

链接：

Chinese MNIST | KaggleChinese numbers handwritten characters imageshttps://www.kaggle.com/gpreda/chinese-mnist

简介：

中国版的 MNIST 数据集是在纽卡斯尔大学的一个项目框架中收集的数据。一百名中国公民参与了数据收集工作。每个参与者用标准的黑色墨水笔在一张桌子上写下所有 15 个数字，在一张白色 A4 纸上画出了 15 个指定区域。这个过程对每个参与者重复 10 次。每张纸都以 300x300 像素的分辨率扫描。结果返回一个包含 15000 个图像的数据集，每个图像代表一组 15 个字符中的一个字符。

代码

引入相关类库

natsort是一个用于排序的类库，为什么这么多的排序不用，偏偏使用这个，因为它的排序规则与Windows的文件排序规则一致！因为csv里面的标签与图片是分离的，所以需要自己先找到办法，把图片和标签正确对应起来。

!pip install natsort #排序规则与Windows的文件排序规则一致

import pandas as pd
import numpy as np
import sys
import os
import tensorflow as tf
from pathlib import Path
import sklearn
from sklearn.model_selection import train_test_split
from tensorflow import keras
import warnings
from natsort import ns, natsorted
warnings.filterwarnings('ignore')

读入数据 & 排序

csv文件的排序处理

把csv文件，按照 'suite_id', 'sample_id', 'code' 先后进行升序排列，得到的就有规律的排列情况，将会与后面的图片排序，一一对应。

data_df = pd.read_csv('../input/chinese-mnist/chinese_mnist.csv') #读入csv文件
data_df.sort_values(by=['suite_id','sample_id','code'], ascending=True, inplace=True) 
#按照 'suite_id', 'sample_id', 'code' 先后进行升序排列
data_df = data_df.reset_index(drop=True) #使索引按照新的排序排列，并丢弃旧的索引
data_df[:20] #显示前20行

显示前20行

图片的排序处理

接下来对图片按照Window的排序规则进行排序

image_dir = Path('../input/chinese-mnist/data/data') #获取图片的根目录
image_paths = list(image_dir.glob('*.jpg')) #获取所有图片的位置
image_paths = natsorted(image_paths, alg=ns.PATH) #按照windows的规则排序
image_paths = pd.Series(image_paths, name='Image_path').astype(str) #拼接成csv文件
image_paths[:20] #展示前20行

展示前20行

从csv文件中取得标签，与图片的位置拼接成新的csv文件。

labels = data_df['code'].astype(str) #需要转成字符串类型，不然会报错
image_df = pd.concat([image_paths, labels], axis=1) #拼接标签与图片的位置
image_df.rename(columns={'code': 'Label'}, inplace=True) #对列名重命名
image_df[:20] #展示前20行

展示前20行