一、伪代码
(1)计算已知类别数据集中的点与当前点之间的距离;
(2)按照距离递增次序排序;
(3)选取与当前点距离最小的k个点;
(4)确定前k个点所在类别的出现频率;
(5)返回前k个点出现频率最高的类别作为当前点的预测分类;
二、k-近邻算法
from numpy import *
import operator
#数据集和标签向量的初始化
def createDataSet():
group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
labels=['A','A','B','B']
return group,labels
#inX是用于分类的输入向量,dataSet是输入的训练样本集,label是标签向量(即createDataSet中初始化的数据集和标签向量),k是用于选择最近邻居的数目
def classify0(inX, dataSet, labels, k):
#dataSetSize是dataSet的行数,用上面的举例就是4行
dataSetSize = dataSet.shape[0]
#前面用tile,把一行inX变成4行一模一样的(tile有重复的功能,dataSetSize是重复4遍,后面的1保证重复完了是4行,而不是一行里有四个一样的),然后再减去dataSet,是为了求两点的距离,先要坐标相减,这个就是坐标相减
diffMat = tile(inX,(dataSetSize,1)) - dataSet
#上一行得到了坐标相减,然后这里要(x1-x2)^2,要求乘方
sqDiffMat = diffMat**2
#axis=1是列相加,,这样得到了(x1-x2)^2+(y1-y2)^2
sqDistances = sqDiffMat.sum(axis=1)
#开根号,这个之后得到的是欧式距离
distances = sqDistances**0.5
#argsort是排序,将元素按照由小到大的顺序返回下标,比如([3,1,2]),它返回的就是([1,2,0])
sortedDistIndicies = distances.argsort()
classCount = {}
for i in range(k):
voteIlabel = labels[sortedDistIndicies[i]]
#get是取字典里的元素,如果之前这个voteIlabel是有的,那么就返回字典里这个voteIlabel里的值,如果没有就返回0(后面写的),这行代码的意思就是算离目标点距离最近的k个点的类别,这个点是哪个类别哪个类别就加1
classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
#key=operator.itemgetter(1)的意思是按照字典里的第一个排序,{A:1,B:2},要按照第1个(AB是第0个),即‘1’‘2’排序。reverse=True是降序排序
sortedClassCount = sorted(classCount.iteritems(),key=operator.itemgetter(1),reverse=True)
#返回类别最多的类别
return sortedClassCount[0][0]