《机器学习实战》学习笔记二：kNN算法实例 -- 手写体识别

最新推荐文章于 2023-10-09 21:55:53 发布

愛在梦醒时分

最新推荐文章于 2023-10-09 21:55:53 发布

阅读量482

点赞数

分类专栏：机器学习 python 《机器学习实战》学记笔记

本文链接：https://blog.csdn.net/h843653844/article/details/79105660

版权

机器学习同时被 3 个专栏收录

9 篇文章 0 订阅

订阅专栏

python

9 篇文章 0 订阅

订阅专栏

《机器学习实战》学记笔记

9 篇文章 1 订阅

订阅专栏

kNN算法的一个简单的例子是手写体识别，问题的关键在于如何将数据转化为需要的格式，还有如何从文件名中解析出图像所在的分类。解决这两个问题之后就可以应用kNN算法进行识别了。
图像的数据是以32*32二进制矩阵的形式在文本中存放着（如图1所示），首先我们要的是把这些文本中的数据存放到数组中，这里做法是创建一个1*1024的数组，逐行读取文件的前32行的前32个字符，并将其存于数组中，到这里准备数据的工作就完成了。实现代码如下：
图1：二进制矩阵

def img2vector(filename):
    returnVect = zeros((1,1024))
    fr = open(filename)
    for i in range(32):
        lineStr = fr.readline()
        for j in range(32):
            returnVect[0,32*i+j]=int(lineStr[j])
    return returnVect

完成了以上的准备工作，接下来我们就可以应用算法了，还需要解决的一个问题就是，解析样本的分类，我们需要读取文件名（如图2所示），然后对文件名用split（）函数进行分割，获取样本的分类，然后就可以利用kNN算法对测试集进行分类了，同时还要进行比较统计错误分类的个数，计算错误率。
图2：文件名称
具体的实现代码如下：

def handwritingClassTest():
    hwLabels = []
    trainingFileList = listdir('F:\sourcecode\Ch02\digits\\trainingDigits')
    m = len(trainingFileList)
    trainingMat = zeros((m,1024))#创建一个1*1024的数组
    for i in range(m):#训练集
        fileNameStr = trainingFileList[i]
        fileStr = fileNameStr.split('.')[0]
        classNumStr = int(fileStr.split('_')[0])#获取样本分类
        hwLabels.append(classNumStr)
        trainingMat[i,:] = img2vector('F:\sourcecode\Ch02\digits\\trainingDigits/%s'%fileNameStr)
    testFileList = listdir('F:\sourcecode\Ch02\digits\\testDigits')
    errorCount = 0.0
    mTest = len(testFileList)
    for i in range(mTest): #测试集
        fileNameStr = testFileList[i]
        fileStr = fileNameStr.split('.')[0]
        classNumStr = int(fileStr.split('_')[0])
        vectorUnderTest = img2vector('F:\sourcecode\Ch02\digits\\testDigits/%s'% fileNameStr)
        classifierResult = classify0(vectorUnderTest,trainingMat,hwLabels,3)#对测试集进行分类
        print("the classifier came back with: %d, the real answer is: %d" % (classifierResult, classNumStr))
        if(classifierResult!=classNumStr):errorCount+=1.0
    print("\nthe total number of errors is :%d"% errorCount)
    print("\nthe total  error rate is :%f" % (errorCount/float(mTest)))
#统计分类错误

愛在梦醒时分

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《机器学习实战》学习笔记二：kNN算法实例 -- 手写体识别

kNN算法的一个简单的例子是手写体识别，问题的关键在于如何将数据转化为需要的格式，还有如何从文件名中解析出图像所在的分类。解决这两个问题之后就可以应用kNN算法进行识别了。图像的数据是以32*32二进制矩阵的形式在文本中存放着（如图1所示），首先我们要的是把这些文本中的数据存放到数组中，这里做法是创建一个1*1024的数组，逐行读取文件的前32行的前32个字符，并将其存于数组中，到这里准备
复制链接

扫一扫

专栏目录