利用KNN算法实现手写数字识别

m0_74143219

于 2024-04-25 22:35:04 发布

阅读量481

点赞数 3

文章标签：算法 python 机器学习

本文链接：https://blog.csdn.net/m0_74143219/article/details/138201126

版权

案例
1 数据文件 train.csv 和 test.csv 包含从 0 到 9 的手绘数字的灰度图像。
2 每个图像高 28 像素，宽28 像素，共784个像素。
3 每个像素取值范围[0,255]，取值越大意味着该像素颜色越深
4 训练数据集（train.csv）共785列。
第一列为 "标签"，为该图片对应的手写数字。其余784列为该图像的像素值
5 训练集中的特征名称均有pixel前缀，后面的数字（[0,783])代表了像素的序号。

import matplotlib.pyplot as plt
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
import joblib
from collections import Counter
def show1(idx):
    # 1 加载数据
    data = pd.read_csv('手写数字识别.csv')
    if idx < 0 or idx > len(data) - 1:
        return
    # 2 打印数据基本信息
    x = data.iloc[:, 1:]
    y = data.iloc[:, 0]
    print('数据基本信息:', x.shape)
    print('类别数据比例:', Counter(y))
    print('当前数字的标签为:',y[idx])
    # 3 显示指定的图片 # data修改为ndarray 类型
    data_ = x.iloc[idx].values
    # 将数据形状修改为 28*28
    data_ = data_.reshape(28, 28)
    # 关闭坐标轴标签
    plt.axis('off')
    # 显示图像
    plt.imshow(data_,cmap='gray')
    plt.show()
show1(1)

展示数据内下标为1的图片

ef train_model():
    # 1 加载手写数字数据集
    data = pd.read_csv('手写数字识别.csv')
    # 2 数据预处理 归一化
    x = data.iloc[:, 1:] / 255
    y = data.iloc[:, 0]
    # 3 分割数据集
    split_data = train_test_split(x, y, test_size=0.2, stratify=y, random_state=0)
    x_train, x_test, y_train, y_test = split_data
    # 4 模型训练
    estimator = KNeighborsClassifier(n_neighbors=3)
    estimator.fit(x_train, y_train)
    # 5 模型评估
    acc = estimator.score(x_test, y_test)
    print('测试集准确率: %.2f' % acc)
    # 6 模型保存
    joblib.dump(estimator, './model/knn.pth')

训练该模型并将其保存在目录为model的文件里

def test_model():
    # 1 读取图片数据
    img = plt.imread('微信图片_20240425182805.png')
    plt.imshow(img)
    # 2 加载模型
    knn = joblib.load('model/knn.pth')
    # 3 预测图片
    y_pred = knn.predict(img.reshape(1, -1))
    print('您绘制的数字是:', y_pred)
test_model()

找到测试集图片，并调用模型进行测试。

m0_74143219

关注

3
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
利用KNN算法实现手写数字识别

1 数据文件 train.csv 和 test.csv 包含从 0 到 9 的手绘数字的灰度图像。5 训练集中的特征名称均有pixel前缀，后面的数字（[0,783])代表了像素的序号。第一列为 "标签"，为该图片对应的手写数字。其余784列为该图像的像素值。3 每个像素取值范围[0,255]，取值越大意味着该像素颜色越深。2 每个图像高 28 像素，宽28 像素，共784个像素。训练该模型并将其保存在目录为model的文件里。找到测试集图片，并调用模型进行测试。展示数据内下标为1的图片。
复制链接

扫一扫