python3 KNN代码详细注释

最新推荐文章于 2021-03-16 20:08:42 发布

你是兰亭先生的序

最新推荐文章于 2021-03-16 20:08:42 发布

阅读量536

点赞数 1

python3 同时被 3 个专栏收录

1 篇文章 0 订阅

订阅专栏

机器学习

1 篇文章 0 订阅

订阅专栏

machinelearning

1 篇文章 0 订阅

订阅专栏

KNN注释：该算法思路简单，准确度也还不错；就是维度高，样本量大的时候计算量很大。

'''
Created on 2018 09 30
kNN: k Nearest Neighbors

Input:      inX: vector to compare to existing dataset (1xN)
            dataSet: size m data set of known vectors (NxM)
            labels: data set labels (1xM vector)
            k: number of neighbors to use for comparison (should be an odd number)

Output:     the most popular class label

@author: cocoleYY
'''
#导入包
import numpy as np
import operator
from os import listdir

def classify0(inX, dataSet, labels, k):
    '用已知数据集dataSet&labels预测未知数据集inX分类，投票数量为k'
    dataSetSize = dataSet.shape[0] #取行数
    diffMat = np.tile(inX, (dataSetSize, 1)) - dataSet #构造和dataSet形状相同的数组，并求两者间差值；即待测点与所有已知点的向量差。
    sqDiffMat = diffMat**2  #上面向量差的平方
    sqDistances = sqDiffMat.sum(axis=1)  #上面平方值，在行的方向的求和，即L2距离的平方
    distances = sqDistances**0.5  #上面结果的开方，即L2 欧氏距离
    sortedDistIndicies = distances.argsort()  #对上面所求距离，顺序排列，返回索引值
    classCount = {} #创建空字典
    for i in range(k):
        '统计出前k个最小距离所覆盖的点，所对应的类别标签数量'
        voteIlabel = labels[sortedDistIndicies[i]] #当前距离点，所对应的标签
        classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1  #将该标签数量写入字典，注：get函数中的0为初始值
    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)  #指定key为字典的值，并以此逆向排序；
    return sortedClassCount[0][0]  #第一行第一列，即数量最多的标签

def createDataSet():
    '创建数据组合标签，并返回'
    group = np.array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]])
    labels = ['A', 'A', 'B', 'B']
    return group, labels

def file2matrix(filename):
    '文本数据转变成数据矩阵'
    love_dictionary = {'largeDoses':3, 'smallDoses':2, 'didntLike':1}  #声明喜欢程度的数值
    fr = open(filename) #打开文件
    arrayOLines = fr.readlines()  #按行读取
    numberOfLines = len(arrayOLines)  #获取该文件行数
    returnMat = np.zeros((numberOfLines, 3))  #初始化全0矩阵，形状同样本数据
    classLabelVector = []  #初始化列表，用来存储类别标签
    index = 0
    for line in arrayOLines:
        line = line.strip()  #去掉每行数据的两端空格
        listFromLine = line.split('\t')  #分隔每一行数据，即将三个变量返回到一个列表中
        returnMat[index, :] = listFromLine[0:3]  #将上述列表中的值，填充到上文所初始化的全0数组矩阵中
        if(listFromLine[-1].isdigit()):  #判定条件为，上述所得列表最后一个元素，是否为数值型
            classLabelVector.append(int(listFromLine[-1]))  #将上述所得列表最后一个元素转化为整型，追加到上文所初始化的类别标签列表
        else:
            classLabelVector.append(love_dictionary.get(listFromLine[-1]))  #不然的话，我们去love_dictionary寻找listFromLine所对应的喜好程度数值标签
        index += 1
    return returnMat, classLabelVector  返回数据矩阵，类别标签列表


def autoNorm(dataSet):
    '该函数为数据标准化处理函数'
    minVals = dataSet.min(0)  #获取每一列最小值
    maxVals = dataSet.max(0)  #获取每一列最大值
    ranges = maxVals - minVals  #求极差
    normDataSet = np.zeros(np.shape(dataSet))  #初始化一个dataSet形状相同的全0数组
    m = dataSet.shape[0]  #获取dataSet行数
    normDataSet = dataSet - np.tile(minVals, (m, 1))  #将dataSet每个元素减去所对应列的最小值
    normDataSet = normDataSet/np.tile(ranges, (m, 1))   #将上述求得的数组中每个元素除以所对应列的极差，即完成标准化处理过程
    return normDataSet, ranges, minVals  #返回标准化数据，极差，最小值

def datingClassTest():
    '用约会网站数据，验证分类模型错误率'
    hoRatio = 0.50  #hold out 10%
    datingDataMat, datingLabels = file2matrix('datingTestSet2.txt')  #加载数据
    normMat, ranges, minVals = autoNorm(datingDataMat)  #标准化数据
    m = normMat.shape[0]  #获取行数
    numTestVecs = int(m*hoRatio)  #声明测试数据的行数
    errorCount = 0.0
    for i in range(numTestVecs):
        classifierResult = classify0(normMat[i, :], normMat[numTestVecs:m, :], datingLabels[numTestVecs:m], 3)  #用normMat的后50%预测前50%的类别标签
        print("the classifier came back with: %d, the real answer is: %d" % (classifierResult, datingLabels[i]))
        if (classifierResult != datingLabels[i]): errorCount += 1.0  #若预测和实际值不同，累计errorCount，即分类错误的数量
    print("the total error rate is: %f" % (errorCount / float(numTestVecs)))  #打印测试数据，错误率
    print(errorCount)

def classifyPerson():
    resultList = ['not at all', 'in small doses', 'in large doses']
    percentTats = float(input(\
                                  "percentage of time spent playing video games?"))  #游戏开始，请输入
    ffMiles = float(input("frequent flier miles earned per year?"))
    iceCream = float(input("liters of ice cream consumed per year?"))
    datingDataMat, datingLabels = file2matrix('datingTestSet2.txt')
    normMat, ranges, minVals = autoNorm(datingDataMat)
    inArr = np.array([ffMiles, percentTats, iceCream, ])
    classifierResult = classify0((inArr - \
                                  minVals)/ranges, normMat, datingLabels, 3)  #分类训练
    print("You will probably like this person: %s" % resultList[classifierResult - 1])  #打印结果

def img2vector(filename):
    returnVect = np.zeros((1, 1024))  #初始化1X1024的全0数组，用来存储图片数据
    fr = open(filename)  #打开文件
    for i in range(32): 
        lineStr = fr.readline()  #逐行读取文件
        for j in range(32):
            returnVect[0, 32*i+j] = int(lineStr[j])  #将32X32的图片数据，铺平填充到上述初始化的1X1024数组中
    return returnVect  #返回转化后的图片数据

def handwritingClassTest():
    hwLabels = []  #初始化手写数据标签
    trainingFileList = listdir('trainingDigits')  #列举文件夹中所有训练数据的文件名，返回到列表
    m = len(trainingFileList)  #获取训练数据的数量
    trainingMat = np.zeros((m, 1024))  #初始化训练数据的数组矩阵
    for i in range(m):
        fileNameStr = trainingFileList[i]  #第i个图片名字
        fileStr = fileNameStr.split('.')[0]  #.分隔，取第一个
        classNumStr = int(fileStr.split('_')[0])  #_分隔，去第一个，即该数据文件对应的数字
        hwLabels.append(classNumStr)  #追加到类别标签列表
        trainingMat[i, :] = img2vector('trainingDigits/%s' % fileNameStr)  #将第i个图片数据填充到训练数据矩阵
    testFileList = listdir('testDigits')  #列举测试数据，将测试图片数据的文件名称返回到列表
    errorCount = 0.0
    mTest = len(testFileList)  #测试图片数据的个数
    for i in range(mTest):
        fileNameStr = testFileList[i]  #以下三行是获取第i个测试图片数据的实际数字
        fileStr = fileNameStr.split('.')[0]  
        classNumStr = int(fileStr.split('_')[0])
        vectorUnderTest = img2vector('testDigits/%s' % fileNameStr)  #加载测试图片数据，格式1X1024
        classifierResult = classify0(vectorUnderTest, trainingMat, hwLabels, 3)  #分类训练
        print("the classifier came back with: %d, the real answer is: %d" % (classifierResult, classNumStr))
        if (classifierResult != classNumStr): errorCount += 1.0  #累计测试数据的错误率
    print("\nthe total number of errors is: %d" % errorCount)  #打印分类错误的数量
    print("\nthe total error rate is: %f" % (errorCount/float(mTest)))  #打印测试图片的分类错误率

你是兰亭先生的序

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python3 KNN代码详细注释

KNN注释：该算法思路简单，准确度也还不错；就是维度高，样本量大的时候计算量很大。'''Created on 2018 09 30kNN: k Nearest NeighborsInput: inX: vector to compare to existing dataset (1xN) dataSet: size m data set of kno...
复制链接

扫一扫