KNN分类算法

最新推荐文章于 2022-05-19 17:33:26 发布

Jessie_Sun_

最新推荐文章于 2022-05-19 17:33:26 发布

阅读量325

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/A_xiao_mili/article/details/79268274

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一、伪代码

（1）计算已知类别数据集中的点与当前点之间的距离；
（2）按照距离递增次序排序；
（3）选取与当前点距离最小的k个点；
（4）确定前k个点所在类别的出现频率；
（5）返回前k个点出现频率最高的类别作为当前点的预测分类；

二、k-近邻算法

from numpy import *
import operator

#数据集和标签向量的初始化
def createDataSet():
    group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
    labels=['A','A','B','B']
    return group,labels

#inX是用于分类的输入向量，dataSet是输入的训练样本集，label是标签向量（即createDataSet中初始化的数据集和标签向量），k是用于选择最近邻居的数目
def classify0(inX, dataSet, labels, k):
    #dataSetSize是dataSet的行数，用上面的举例就是4行 
    dataSetSize = dataSet.shape[0]
    #前面用tile，把一行inX变成4行一模一样的（tile有重复的功能，dataSetSize是重复4遍，后面的1保证重复完了是4行，而不是一行里有四个一样的），然后再减去dataSet，是为了求两点的距离，先要坐标相减，这个就是坐标相减
    diffMat = tile(inX,(dataSetSize,1)) - dataSet
    #上一行得到了坐标相减，然后这里要(x1-x2)^2，要求乘方
    sqDiffMat = diffMat**2
    #axis=1是列相加，，这样得到了(x1-x2)^2+(y1-y2)^2
    sqDistances = sqDiffMat.sum(axis=1)
    #开根号，这个之后得到的是欧式距离
    distances = sqDistances**0.5
    #argsort是排序，将元素按照由小到大的顺序返回下标，比如([3,1,2]),它返回的就是([1,2,0])  
    sortedDistIndicies = distances.argsort()
    classCount = {}
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]
        #get是取字典里的元素，如果之前这个voteIlabel是有的，那么就返回字典里这个voteIlabel里的值，如果没有就返回0（后面写的），这行代码的意思就是算离目标点距离最近的k个点的类别，这个点是哪个类别哪个类别就加1 
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
    #key=operator.itemgetter(1)的意思是按照字典里的第一个排序，{A:1,B:2},要按照第1个（AB是第0个），即‘1’‘2’排序。reverse=True是降序排序
    sortedClassCount = sorted(classCount.iteritems(),key=operator.itemgetter(1),reverse=True)
    #返回类别最多的类别 
    return sortedClassCount[0][0]