使用k-近邻算法的手写识别系统（学习记录）

最新推荐文章于 2024-04-01 20:19:27 发布

不点外卖

最新推荐文章于 2024-04-01 20:19:27 发布

阅读量143

点赞数 1

文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_43484007/article/details/108807592

版权

本文档介绍了使用k-近邻(k-Nearest Neighbors, KNN)算法实现手写数字识别的过程，包括数据收集、数据准备、分析、以及测试算法的步骤。文中提到，虽然KNN在实际应用中效率较低，但可以考虑使用决策树进行优化以提高性能。" 95776614,7482954,使用gmssl编译libcurl与nginx配置指南,"['openssl', 'nginx', 'libcurl', '编译']

摘要由CSDN通过智能技术生成

以下内容来源于《Machine Learning in Action》

使用k-近邻算法的手写识别系统
(1) 收集数据：提供文本文件。
(2) 准备数据：编写函数classify0()，将图像格式转换为分类器使用的list格式。
(3) 分析数据：在Python命令提示符中检查数据，确保它符合要求。
(4) 训练算法：此步骤不适用于k-近邻算法。
(5) 测试算法：编写函数使用提供的部分数据集作为测试样本，测试样本与非测试样本
的区别在于测试样本是已经完成分类的数据，如果预测分类与实际类别不同，则标记
为一个错误。
(6) 使用算法：本例没有完成此步骤，若你感兴趣可以构建完整的应用程序，从图像中提
取数字，并完成数字识别，美国的邮件分拣系统就是一个实际运行的类似系统。

为了简单起见，这里构造的系统只能识别数字0到9。参见图2.6。需要识别的数字已经使用图形处理软件，处理成具有相同的色
彩和大小①：宽高是32像素× 32像素的黑白图像。尽管采用文本格式存储图像不能有效地利用内
存空间，但是为了方便理解，我们还是将图像转换为文本格式。
在这里插入图片描述

分类器

#classify0()函数有4个输入参数：用于分类的输入向量是inX，输入的训练样本集为dataSet，
#标签向量为labels，最后的参数k表示用于选择最近邻居的数目，其中标签向量的元素数目和矩
#阵dataSet的行数相同。使用欧氏距离公式，计算两个向量点xA和xB之间的距离
def classify0(inX,dataSet,labels,k):
    dataSetSize=dataSet.shape[0]
    diffMat=tile(inX,(dataSetSize,1))-dataSet
    sqDiffMat=diffMat**2
    #np.sum([[0,1,2],[2,1,3]],axis=1)的结果就是：array（[3,6]）
    #axis＝0表示按列相加，axis＝1表示按照行的方向相加
    sqDistances=sqDiffMat.sum(axis=1)
    distances=sqDistances**0.5
    # x=np.array([1,4,3,-1,6,9])
    #x.argsort()
    #输出定义为y=array([3,0,2,1,4,5])
    #现argsort()函数是将x中的元素从小到大排列，提取其对应的index(索引)，然后输出到y
    #x[3]=-1最小，所以y[0]=3,x[5]=9最大，所以y[5]=5。
    sortedDistIndicies