k近邻算法思想很简单,一个类的数据之间距离较近,单纯比较距离就好,下面注释比较清楚,常犯的错误也已经标记出来了 import numpy as np import operator from matplotlib import pyplot as plt def classify0(inX,dataSet,labels,k): dataSetSize=dataSet.shape[0] diffMat=np.tile(inX,(dataSetSize,1))-dataSet #计算输入数据点与训练集数据点的差值 sqDiffMat=diffMat**2 sqDistances=sqDiffMat.sum(axis=1) #计算与各个训练集数据点的距离 distance=sqDistances**0.5 sortedDistIndicies=np.argsort(distance) #返回distance按照从小到大排序的序列的索引 classCount={} #建立一个空的字典 for i in range(k): voteIlabel=labels[sortedDistIndicies[0]] classCount[voteIlabel]=classCount.get(voteIlabel,0)+1 #classCount字典存储每个标签的数量,Get函数(key,default)若key不存在则以default为默认值创建该key sortedClassCount=sorted(classCount.items(),key=operator.itemgetter(1),reverse=True) return sortedClass
K-近邻算法的一个简单例子
最新推荐文章于 2024-04-15 22:51:42 发布