算法描述如下:
1)计算已知类别数据集中的点与当前点之间的距离;
2)按照距离递增次序排序;
3)选取与当前点距离最小的k个点;
4)确定前k个点所在类别的出现频率;
5)返回前k个点出现频率最高的类别作为当前点的预测分类。
书中有代码,只是注释给的太少,故提一下用到的几个函数,输出一下中间结果便于理解
#手动创建数据,最简单的knn
import numpy as np
import operator
def createDataSet():
group=np.array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
#对应的类别
labels=['A','A','B','B']
return group,labels
#实现k近邻算法
#输入inX,输出判断出的它的类别
def classify0(inX,dataSet,labels,k):
#取到行数
data_size=dataSet.shape[0]
#做差
#tile(inX,(a,b))表示inX在行方向复制a次,列方向上复制b次,b=1就表示保持不动
tmp=np.tile(inX,(data_size,1))
print 'tile后的结果为'
print tmp
delta=np.tile(inX,(data_size,1))-dataSet
print '做差的结果为'
print delta
#平方
square=delta**2
print '平方的结果为'
print square
#每一行求和
square_sum=square.sum(axis=1)
print '求和的结果为'
print square_sum
#开方求得距离
distances=square_sum**0.5
print '最终的距离为'
print distances
#argsort函数:按元素从小到大,取其对应下标
#x=np.array([1,4,3,-1,6,9]),x.argsort()返回的结果是[3,0,2,1,4,5],最小的元素下标为3....
sorted_index=distances.argsort()
#创建一个字典,存取类别到出现次数的映射,'A':5即表示前k个中有5个A类的事物
class_count={}
for i in range(k):
#取到对应的label
tmp_label=labels[sorted_index[i]]
#进行计数
class_count[tmp_label]=class_count.get(tmp_label,0)+1
#按照出现次数,从大到小排序
sorted_class_count=sorted(class_count.iteritems(),key=operator.itemgetter(1),reverse=True)
print '排序后:'
print sorted_class_count
#返回出现次数最多的那个类别
return sorted_class_count[0][0]
#开始测试
group,labels=createDataSet()
print group
print labels
[[ 1. 1.1] [ 1. 1. ] [ 0. 0. ] [ 0. 0.1]] ['A', 'A', 'B', 'B']
#输入数据进行测试 classify0([0,0],group,labels,3)
tile后的结果为 [[0 0] [0 0] [0 0] [0 0]] 做差的结果为 [[-1. -1.1] [-1. -1. ] [ 0. 0. ] [ 0. -0.1]] 平方的结果为 [[ 1. 1.21] [ 1. 1. ] [ 0. 0. ] [ 0. 0.01]] 求和的结果为 [ 2.21 2. 0. 0.01] 最终的距离为 [ 1.48660687 1.41421356 0. 0.1 ] 排序后: [('B', 2), ('A', 1)]'B'