python实现基于KNN算法的手写数字识别系统非常详细！！！！

最新推荐文章于 2024-08-16 22:30:14 发布

Young_and_Cold

最新推荐文章于 2024-08-16 22:30:14 发布

阅读量2.1w

点赞数 25

分类专栏： Date mining 文章标签： KNN 手写数字识别系统 python实现

本文链接：https://blog.csdn.net/springhammer/article/details/89511047

版权

本文详细介绍了如何使用Python实现基于KNN算法的手写数字识别系统。从KNN算法思想、最佳K值选择到算法实现过程，包括数据准备、分析、测试，以及实验体会，展示了KNN算法在手写数字识别中的应用，错误率仅为1.05%。

摘要由CSDN通过智能技术生成

一家懂得用细节留住客户的3年潮牌老店我必须支持！➕🛰：luyao1931

在这里插入图片描述

实验知识点：

1、K 近邻分类算法
2、从文本文件中解析和导入数据
3、使用 Matplotlib 创建扩散图
4、归一化数值

首先介绍下监督学习和无监督学习：

监督学习：（数据有输入有输出），通过已有的一部分数据和输出数据之间的相应关系，生成一个函数，将输入映射到合适的输出，在准确的说有监督学习就是训练样本中必须有标签或者标记；
无监督学习：（数据只有输入），给定的训练样本中难以标注类别或者标注成本过高，这类没有类别标注（未被标记）的训练集建模模式称为无监督学习
半监督学习：一部分数据有标签一部分数据没标签称为半监督学习

监督学习常用算法：

分为分类(classification)和回归(regression)俩大类
分类：
K近邻、支持向量机、朴素贝叶斯、决策树、随机森林、人工神经网络等；
回归：
线性回归、神经网络等

无监督学习常用算法：

无监督学习算法主要为聚类:
K-Means聚类，高斯混合模型等；
监督学习—KNN（k最近邻分类算法）

KNN算法思想：

K最近邻算法，顾名思义就是搜寻最近的K个已知类别样本用于未知类别样本的预测。
"最近"的度量就是应用点之间的距离或相似性，距离越小或相似度越高，说明他们之间越近
“预测”，对于离散型的因变量来说，从k个最近的已知类别样本中挑选出频率最好的类别用
于未知样本的判断；对于连续性的因变量来说，则是将K个最近的已知样本均值用作未知样
本的预测。

最佳K值的选择：

为了在模型中防止出现过拟合或欠拟合状态，也为了获得最佳的k值，可以考虑俩种解决方
案：一种是设置k近邻样本投票权重，假设读者在使用KNN算法进行分类或预测时设置的
k值比较大，担心模型发生欠拟合的现象，一个简单有效的方法就是设置近邻样本的投票权
重，如果一直样本距离未知样本比较远，则对应的权重就设置的低一些，否则权重高一些
通常可以将权重设置为距离的倒数，另一种是采用多重交叉验证，最后选出平均误差最小的
k值，当然还可以将俩种方法的有点相结合，选出理想的k值。

K近邻算法概述：

简单地说，K 近邻算法采用测量不同特征值之间的距离方法进行分类。它具有的优缺点如下：
优点：精度高、对异常值不敏感、无数据输入假定。
缺点：计算复杂度高、空间复杂度高。
K 近邻算法适用数据范围为：数值型和标称型。
K 近邻算法的工作原理是：存在一个样本数据集合，也称作训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一数据与所属分类的对应关系。

输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似数据（最近邻）的分类标签。一般来说，我们只选择样本数据集中前 kk 个最相似的数据，这就是 K 近邻算法中 kk 的出处，通常 kk 是不大于 20 的整数。最后，选择 kk 个最相似数据中出现次数最多的分类，作为新数据的分类。

K近邻算法的一般流程：

1、收集数据：可以使用任何方法。
2、准备数据：距离计算所需要的数值，最好是结构化的数据格式。
3、分析数据：可以使用任何方法。
4、训练算法：此步骤不适用于 K 近邻算法。
5、测试算法：计算错误率。
6、使用算法：首先需要输入样本数据和结构化的输出结果，然后运行K 近邻算法判定输入数据分别属于哪个分类，最后应用对计算出的分类执行后续的处理。

开发准备：

为了简单起见，这里构造的系统只能识别数字 0 到 9，参见图 2-6。需要识别的数字已经使用图形处理软件，处理成具有相同的色彩和大小 1：宽高是 32 像素 x 32 像素的黑白图像。

尽管采用文本格式存储图像不能有效地利用内存空间，但是为了方便理解，还是将图像转换为文本格式。

在这里插入图片描述

实验步骤：

准备数据：将图像转换为测试向量

为了使用前面两个例子的分类器，我们必须将图像格式化处理为一个向量。我们将把一个 32x32 的二进制图像矩阵转换为 1x1024 的向量，这样前两节使用的分类器就可以处理数字图像信息了。

首先编写一段函数 img2vector，将图像转换为向量：该函数创建 1x1024 的 NumPy 数组，然后打开给定的文件，循环读出文件的前 32 行，并将每行的头 32 个字符值存储在 NumPy 数组中，最后返回数组。
代码

def img2vector(filename):
    # 创建向量
    returnVect = np.zeros((1, 1024))
    # 打开数据文件，读取每行内容
    fr = open(filename

最低0.47元/天解锁文章