机器学习实战——k近邻算法学习笔记

最新推荐文章于 2024-04-19 05:16:09 发布

就叫乾龙呀丶

最新推荐文章于 2024-04-19 05:16:09 发布

阅读量258

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/QianLong_/article/details/103828174

版权

机器学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

本文介绍了k-NN算法的基本原理，包括寻找最近邻和利用多数表决确定类别。还提到了kd树作为优化搜索的方法，但书中未详细讲述kd树的构造。此外，文章通过机器学习实战书中的k-NN代码实例，解析了NumPy库的使用，并提供了手写数字识别系统的代码及测试效果。

摘要由CSDN通过智能技术生成

机器学习实战——k近邻算法

k-NN算法，寻找与每个测试实例最接近即距离最小的k个训练实例，通过对这k个训练实例多数表决等方法来判断测试实例的类别。

通过构造kd树，搜索kd树的方法可以大大减少算法的计算量，但是在机器学习实战这本树中并未讲解构造kd树的算法，kd树还有待学习！
——————————————————————————————

机器学习实战书中的k-NN代码运用了大量的NumPy库函数，我以前也没接触过这个库，这里通过学习对代码中NumPy库函数进行了简单的用法讲解，便于理解。
代码中加入了大量的我对代码理解的注释

附代码：

def classify0(inx,dataSet,labels,k): # inx用于分类的输入向量
    """k-近邻算法"""
    dataSetSize = dataSet.shape[0] # numpy.shape()  shape():查看矩阵或者数组的维数，这里shape[0]:返回矩阵的列数
    diffMat = tile(inx,(dataSetSize,1)) - dataSet #输入向量与各属性值之差。numpy.tile() :重复向量，这里把inx在列的维度上重复了四次，使其变成(4,2)矩阵
    sqDiffMat = diffMat ** 2 # 求平方
    sqDistances = sqDiffMat.sum(axis=1) # numpy.sum()：求元素的和对于二维数组axis=1表示按行相加 , axis=0表示按列相加
    distances = sqDistances ** 0.5 #开方
    sortedDistIndicies = distances.argsort() #argsort():将distances中的元素从小到大排列，提取其对应的index(索引)，然后输出到sortedDistIndicies
    classCount = {}
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1 # 计算在k邻域内各个种类出现的次数，保存到字典对应种类的键下
    sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
    """ sorted()返回重新排序的列表,reverse=True表示降序，key：用来进行比较的元素。items() 函数以列表返回可遍历的(键, 值) 元组数组,
        operator.itemgetter(1)维第二个元素的值，从当用来进行比较的元素"""
    return sortedClassCount[0][0]

def file2matrix(filename):
    """将文本记录转换成Numpy的解析程序"""
    fr = open(filename)
    arrayOLines = fr.readlines() #将文件以行为单位提取存放到列表中
    numberOfLines = len(arrayOLines) #得到文件的行数
    returnMat = zeros((numberOfLines,3)) #定义1000列3行的零矩阵
    classLabelVector = []
    index = 0
    for line in arrayOLines:
        line = line.strip() # strip() 方法用于移除字符串头尾指定的字符（默认为空格或换行符）或字符序列
        listFromLine = line.split('\t') #  split() 通过指定分隔符对字符串进行切片
        returnMat[index,:] = listFromLine[0:3] #存放特征属性
        classLabelVector.append(int(listFromLine[-1])) # 存放标签
        index += 1
    return returnMat,classLabelVector

def autoNorm(dataSet):
    """归一化特征值"""
    minVals = dataSet.min(0) # 参数0表示列，即选取每一列参数的最小值
    maxVals = dataSet.max(0)
    ranges = maxVals - minVals
    normDataSet = zeros(shape(dataSet))
    m = dataSet.shape[0] # 取得数据集的列数
    normDataSet = dataSet - tile(minVals,(m,1)) # tile()将最小值变成m列矩阵，便于计算矩阵之差
    normDataSet = normDataSet / tile(ranges,(m,1)) # 将数据集归一化到0-1之间
    return normDataSet,ranges,minVals

def datingClaaTest():
    """分类器针对约会网站测试"""
    hoRatio = 0.10 #测试数据集占比
    datingDataMat,datingLabels = file2matrix('datingTestSet2.txt') #获取数据集
    normMat,ranges,minVals = autoNorm(datingDataMat) #归一化数据集
    m = normMat.shape[0] # 获取列数
    numTestVecs = int(m*hoRatio) #测试数据集数目
    errorCount = 0.0 # 错误数目
    for i in range(numTestVecs):
        classifierResult = classify0(normMat[i,:],normMat[numTestVecs:m,:],datingLabels[numTestVecs:m],3)
        print("the classifier came back with: "  + str(classifierResult) + " the real answer is: " + str(datingLabels[i]))
        if(classifierResult != datingLabels[i]):
            errorCount += 1.0
    print("the total error rate is: " + str(errorCount/float(numTestVecs)))

def classifyPerson():
    """约会网站预测函数"""
    resultList = ['not at all','in small doses','in large doses']
    percentTats = float(input('percentage of time spent playing video games?'))
    ffMiles = float(input("frequent flier miles earned per year?"))
    iceCream = float(input('liters of ice cream consumed per year?'))
    datingDataMat,datingLabels = file2matrix('datingTestSet2.txt') #获取数据集
    normMat,ranges,minVals = autoNorm(datingDataMat) #归一化数据集
    inArr = array([ffMiles,percentTats,iceCream])
    classifyResult = classify0((inArr-minVals)/ranges,normMat,datingLabels,3)
    print('You will probably like this person: ' + resultList[classifyResult-1])

##手写数字识别系统

from kNN import *
from os import listdir

def img2vector(filename):
    """将图像转换成测试向量"""
    returnVect = zeros((1,1024))
    fr = open(filename)
    for i in range(32):
        lineStr = fr.readline()
        for j in range(32):
            returnVect[0,32*i+j] = int(lineStr[j]) 
            #将32*32的图像数据保存为(1,1024))的矩阵中
    return returnVect

def handwritingClassTest():
    """手写数字识别系统测试"""
    hwLabels = []
    trainingFileList = listdir('trainingDigits') 
    #获取文件夹下的文件名列表
    # os.listdir() 方法用于返回指定的文件夹包含的文件或文件夹的名字的列表
    m = len(trainingFileList)
     #计算文件数量 1934
    trainingMat = zeros((m,1024)) 
    #生成(m,1024)的零矩阵
    for i in range(m):
        # 从文件名解析分类数字
        filenameStr = trainingFileList[i]
        fileStr = filenameStr.split('.')[0]
         # 根据 '.' 对文件名进行切片，如 0_0.txt 切成 ['0_0','txt']
        classNumStr = int(fileStr.split('_')[0]) 
        #同理，切片提取分类数字
        hwLabels.append(classNumStr) #标签集
        trainingMat[i,:] = img2vector('trainingDigits/%s' % filenameStr) 
        #将训练图像集放到(m,1024)的矩阵中
    testFileList = listdir('testDigits') #测试图像集
    errorCount = 0.0 # 错误次数
    mTest = len(testFileList) #测试图像集文件数 946
    for i in range(mTest):
        filenameStr = testFileList[i]
        fileStr = filenameStr.split('.')[0]
        classNumStr = int(fileStr.split('_')[0])
        vectorUnderTest = img2vector('trainingDigits/%s' % filenameStr) 
        # 文件夹下面的文件
        classifierResult = classify0(vectorUnderTest,trainingMat,hwLabels,3)
        print("the classifier came back with: " + str(classifierResult) + ',the real answer is: ' + str(classNumStr))
        if(classifierResult != classNumStr):
            errorCount += 1
    print('\nthe total number of errors is: ' + str(errorCount))
    print('\nthe total error rate is: ' + str(errorCount/float(mTest)))

测试效果如下：

。。。。。。。。。。。。。。。。
the classifier came back with: 9,the real answer is: 9
the classifier came back with: 9,the real answer is: 9
the classifier came back with: 9,the real answer is: 9
the classifier came back with: 9,the real answer is: 9
the classifier came back with: 9,the real answer is: 9

the total number of errors is:13.0

the total error rate is: 0.013742071881606765

就叫乾龙呀丶

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习实战——k近邻算法学习笔记

机器学习实战——k近邻算法k-NN算法，寻找与每个测试实例最接近即距离最小的k个训练实例，通过对这k个训练实例多数表决等方法来判断测试实例的类别。通过构造kd树，搜索kd树的方法可以大大减少算法的计算量，但是在机器学习实战这本树中并未讲解构造kd树的算法，kd树还有待学习！——————————————————————————————机器学习实战书中的k-NN代码运用了大量的NumPy库函数...
复制链接

扫一扫

专栏目录