【放假第六天】KNN 文本分类简单数字文字识别

最新推荐文章于 2023-02-23 16:22:04 发布

或许快要下雪了吧

最新推荐文章于 2023-02-23 16:22:04 发布

阅读量171

点赞数

分类专栏：机器学习数据挖掘

本文链接：https://blog.csdn.net/qq_40647378/article/details/103630842

版权

机器学习同时被 2 个专栏收录

18 篇文章 0 订阅

订阅专栏

数据挖掘

9 篇文章 0 订阅

订阅专栏

#仅供自己学习笔记用
主要是前面的img2vector是新的知识点，也许基础知识会，能理解，但是自己写真的能卸出来吗
returnVect要先预设然后往里面装装的时候是分行读的，要怎么写？ int有注意到吗

import numpy as np
import os
from com.bjsxt.knn.KNNDateOnHand import classify
#就是封装好的包呗

def img2vector(filename):
    returnVect=np.zeros((1,1024))#原数据是32*32，而且注意是双重括号
    fr=open(filename)
    for line in range(32):
        lineStr=fr.readline()
        for j in range(32):
            returnVect[0,32*i+j]=int(lineStr[j])
    return returnVect


def IdentifImgClassText():
    hwLabel=[]
    trainingFileList=os.listdir('TrainData')  #https://www.runoob.com/python/os-listdir.html
    m=len(trainingFileList)
    trainingMat=np.zeros((m,1024))
    for i in range(m):
        fileNameStr=trainingFileList[i]
        fileStr=fileNameStr.split(".")[0]
        fileNumStr=int(fileStr.split("_")[0])
        hwLabes.append(classNumStr)
        trainingMat[i,:]=img2vector('TrainData/%s'%fileNameStr)


#然后也是又写了一遍，没有写循环呀，不是简便的就是好的呀

testFileList=os.listdir('TestData')
errorCount=0.0
mTest=len(testFileList)
for i in range(mTest):
    fileNameStr=trainingFileList[i]
    fileStr=fileNameStr.split(".")[0]
    fileNumStr=int(fileStr.split("_")[0])  #记得要化成整数型
    vectorUnderTest=img2vector('TestData/%s'%fileNumStr)
    classifierResult=classify(vectorUnderTest,trainingMat,hwLabels,3)
    print("识别出来的数字是： %d，真实的数字是：%d"(classifierResult,classNumStr))
    if(classifierResult!=classNumStr):
        errorCount+=1.0
    print("\n识别错误的个数%d"%errorCount)
    errorRate=errorCount/float(mTest)
    print("\n识别错误率%f"%erroRate)
    
    
if_name_=="_main_":
   #https://blog.csdn.net/Nancy50/article/details/90205367
    IdentifyImgClassTest