机器学习实战k近邻算法(kNN)应用之手写数字识别代码解读

最新推荐文章于 2024-06-20 21:22:09 发布

SCUT_Arucee

最新推荐文章于 2024-06-20 21:22:09 发布

阅读量6.5k

点赞数 8

分类专栏：机器学习模式识别 python 文章标签： k-近邻 python kNN 机器学习算法

本文链接：https://blog.csdn.net/SCUT_Arucee/article/details/50261739

版权

本文详细解读了如何使用k近邻算法(kNN)进行手写数字识别，包括图像转换函数img2vector、测试函数handwritingClassTest的实现，以及运行耗时统计。通过实验，错误率为1.2%，总耗时43.5秒，揭示了kNN算法在效率和存储空间上的挑战。

摘要由CSDN通过智能技术生成

一.背景简要说明

书中假设待识别的数字已经使用图形处理软件将其处理为32*32的黑白图像，并将图片转换为文本格式。如下图代表数字0：

每个数字的训练样本大概有200个，每个数字的测试样本大概有100个，分别放在trainingDigits和testDigits中。

二.模块代码及注释

from numpy import *
from os import listdir
import operator
import time

#k-NN简单实现函数
def classify0(inX,dataSet,labels,k):

    #求出样本集的行数，也就是labels标签的数目
    dataSetSize = dataSet.shape[0]

    #构造输入值和样本集的差值矩阵
    diffMat = tile(inX,(dataSetSize,1)) - dataSet

    #计算欧式距离
    sqDiffMat = diffMat**2
    sqDistances = sqDiffMat.sum(axis=1)
    distances = sqDistances**0.5

    #求距离从小到大排序的序号
    sortedDistIndicies = distances.argsort()

    #对距离最小的k个点统计对应的样本标签
    classCount = {}
    for i in range(k):
        #取第i+1近邻的样本对应的类别标签
        voteIlabel = labels[sortedDistIndicies[i]]
        #以标签为key，标签出现的次数为value将统计到的标签及出现次数写进字典
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1

    #对字典按value从大到小排序
    sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)

    #返回排序后字典中最大value对应的key
    return sortedClassCount[0][0]

#----------------------------------------------------------------------------

#函数运行耗时统计函数
def time_me(fn):
  def _wrapper(*args, **kwargs):
    start = time.clock()
    fn(*args, **kwargs)
    print ("\n%s cost %s second"%(fn.__name__, time.clock() - start))
  return _wrapper

#----------------------------------------------------------------------------

#图像转换函数（32*32图像转换为1*1024向量）
def img2vector(filename):

    #初始化待返回的向量
    returnVect = zeros((1,1024))
    
    fr = open(filename)
    for i in range(32):
        #每次读取一行内容，以字符串形式存储
        lineStr = fr.readline()

        #逐个取出当前行的每一个字符，并转化为数字
        for j in range(32):
            returnVect[0,32*i+j] = int(lineStr[j])
    return returnVect

#----------------------------------------------------------------------------

#手写数字识别测试函数
@time_me
def handwritingClassTest():

    #初始化类别标签为空列表
    hwLabels = []

    #列出给定目录下所有训练数据的文件名
    trainingFileList = listdir('F:/machinelearninginaction/Ch02/trainingDigits')

    #求训练数据数目
    m = len(trainingFileList)

    #初始化m个图像的训练矩阵
    trainingMat = zeros((m,1024))
    
    #遍历每一个训练数据
    for i in range(m):

        #取出一个训练数据的文件名
        fileNameStr = trainingFileList[i]

        #去掉该训练数据的后缀名.txt
        fileStr = fileNameStr.split('.')[0]

        #取出代表该训练数据类别的数字
        classNumStr = int(fileStr.split('_')[0])

最低0.47元/天解锁文章

SCUT_Arucee

关注

8
点赞
踩
26

收藏

觉得还不错? 一键收藏
1
评论
机器学习实战k近邻算法(kNN)应用之手写数字识别代码解读

一.背景简要说明书中假设待识别的数字已经使用图形处理软件将其处理为32*32的黑白图像，并将图片转换为文本格式。如下图代表数字0：每个数字的训练样本大概有200个，每个数字的测试样本大概有100个，分别放在trainingDigits和testDigits中。二.模块代码及注释from numpy import *from os import
复制链接

扫一扫

专栏目录