基于K-近邻算法的手写数字识别研究

最新推荐文章于 2022-02-07 22:10:01 发布

倾城一少

最新推荐文章于 2022-02-07 22:10:01 发布

阅读量6k

点赞数 8

分类专栏：机器学习文章标签： machine learning

本文链接：https://blog.csdn.net/u010329292/article/details/71514431

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

摘要：基于K-近邻算法研究手写数字（0-9）的识别问题，本文通过对手写数字的图像进行处理，提取特征向量，使用Python实现了K-近邻算法，并在此基础上开发了一个GUI测试程序，不仅能够实时测试手写识别的结果和调整k值，而且能够对识别错误的数字进行更正，将其加入训练库，使得该程序具有持续的学习能力，不断提高识别精度。

1.引言

K-近邻算法是数据分类中最简单有效的算法。通过计算未知样本与已知样本之间的距离，找出离未知样本最近的已知样本，并将该样本的类别赋予未知样本，即实现了对未知样本的分类。其中，样本之间的距离是通过对样本的特征向量进行计算得出的，每个样本在特征空间中是一个点，则只需在特征空间中计算的两点距离就能计算出两个样本之间的距离，距离越小，则说明两个样本之间越相似。在选择最近样本时，如果选择的不止一个，例如k个，则称为k-近邻，此时未知样本分类的准则为：在k个最近的样本中，将出现次数最多的样本所属的类别赋予未知样本，即完成未知样本的分类。

在本文中，首先使用python实现了一个k-近邻算法，能够对任意的样本进行k-近邻分类。然后研究了图像特征参数的提取，即从每副图像中提取特征向量用于分类算法。使用该方法对大量的样本进行研究，研究不同k值情况下的分类精度问题，最后使用该算法实现一个手写数字识别演示软件。

2.K-近邻算法实现

K-近邻算法实现较为简单，其主要过程如下：

1)计算已知类别数据集中的点与当前点之间的距离；

2)按距离递增次数排序；

3)选取与当前点距离最小的k个点；

4)确定当前k个点所在的类别的出现频率；

5)返回前k个点中出现频率最高的点所属的类作为当前点的预测分类。

Python代码实现如下（使用python下的科学计算库numpy）:

def knn_classify(inX,dataSet,labels,k):
    '''
    knn算法
    inX 待分类向量
    dataSet 训练样本
    labels 标签向量
    k 最邻近元素的个数
    '''
    dataSetSize = dataSet.shape[0]  #numpy用法 获取训练样本数据的维度大小
    diffMat = tile(inX,(dataSetSize,1))-dataSet #将inX扩展为跟dataSet维数相同进行相减
    sqDiffMat = diffMat**2
    sqDistances = sqDiffMat.sum(axis=1)
    distances = sqDistances**0.5       #上三步用于计算欧式距离
    sortedDistIndicies = distances.argsort()  #按Distance从小到大排序 此处记录的是下标
    classCount={}
    for i in range(k):   #取前k个
        votelabel=labels[sortedDistIndicies[i]]
        classCount[votelabel]=classCount.get(votelabel,0)+1  #记录每个类别在最近的k个中出现了几个  例如 dict: {'A': 1, 'B': 2}
    sortedClassCount = sorted(classCount.iteritems(),
                                  key=operator.itemgetter(1),reverse=True)#按 value字段排列字典 
    return sortedClassCount[0][0]  #返回所属类别