手写字识别knn模型

最新推荐文章于 2024-04-21 09:30:57 发布

要去看另一场太阳

最新推荐文章于 2024-04-21 09:30:57 发布

阅读量790

点赞数 1

分类专栏：手写字识别文章标签：机器学习 python 算法

本文链接：https://blog.csdn.net/qq_22749197/article/details/126459072

版权

手写字识别专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1、实验原理：

Knn算法：邻近算法，或者说K最近邻(kNN，k-NearestNeighbor)分类算法是机器学习分类技术中最简单的方法之一。所谓K最近邻，就是k个最近的邻居的意思，说的是每个样本都可以用它最接近的k个邻居来代表。属于监督学习，有类别标记，他没有明显的前期训练过程，在程序运行之后，把数据加载到内存后，不需要进行训练就可以分类。

2、大致流程：

使用kNN算法的手写识别系统

1.收集数据：提供文本文件

2.准备数据：编写函数img2vector(),将图像格式转换为分类器使用的向量格式。

3.分析数据：在Python命令提示符中检查数据，确保它符合要求。

4.测试算法：编写函数使用提供的部分数据集作为测试样本，测试样本与非测试样本的区别在于测试样本是已经完成分类的数据，如果预测分类与实际类别不同，则标记为一个错误。

5.使用算法：使用已编写好的算法来对测试样本进行测试

3、功能实现：

3.1 数据集的准备

将图像转换为txt文件。已知图像为28*28的像素范围，利用getpixel提取图片中的像素值大小。在打印成txt文件，这边要注意的是这边读取的是整个文件夹。

图 1数据集整理

3.2命名的整理

为了更好的对已有的数据集进行分类，我们将正确值与图片转换后的txt进行一一对应。

图 2 标签分离

注意：这边我们将列表的0序号占用掉。

将txt的命名修改成标签_图片的形式，帮助knn进行分类。

图 3 txt命名

3.3KNN模型的建立：

实现思路：①将测试数据转换成只有一列的0-1矩阵形式将所有（L个）训练数据也都用上方法转换成只有一列的0-1矩阵形式。②把L个单列数据存入新矩阵A中——矩阵A每一列存储一个字的所有信息。③用测试数据与矩阵A中的每一列求距离，求得的L个距离存入距离数组中。④从距离数组中取出最小的K个距离所对应的训练集的索引拥有最多索引的值就是预测值。

所以先定义一个读取数据的转换数据的函数。将图像信息转成28*28的格式。