使用Python3.6.3
from numpy import *
import operator
def createDataSet():
group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
labels = ['A','A','B','B']
return group,labels
#group,labels=createDataSet()
#print(group,labels)
def classify0(inX,dataSet,labels,k):
# inX 是输入向量(判断他属于哪个分类),dataSet是上面的group(即训练样本集),labels是标签向量(训练样本对应的标签),k是kNN中选取的距离最近的数目
dataSetSize = dataSet.shape[0] #dataSetSize是数组的元素个数(即几个训练样本)
diffMat = tile(inX,(dataSetSize,1)) - dataSet # 将inX重复四次和dataSet保持同样格式,再相减
sqDiffMat = diffMat**2
sqDistances = sqDiffMat.sum(axis = 1)#按行相加
distances = sqDistances**0.5
sortedDistIndicies = distances.argsort()#排序,按元素从小到大的顺序返回其下标;如[6,1,3]返回[1,2,0]
classCount={} # 数据类型为字典,key:value 如{ '姓名':'小明','年龄':14 }
for i in range(k):
voteIlabel = labels[sortedDistIndicies[i]] # votaIlabek表示标签
classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1 #get是取字典里的元素,如果之前这个voteIlabel是有的,那么就返回字典里这个voteIlabel里的值,如果没有就返回0
#这行代码的意思就是算离目标点距离最近的k个点的类别,这个点是哪个类别哪个类别就加1
sortedClassCount = sorted(classCount.iteritems(),
key = operator.itemgetter(1),reverse=True)#itemgetter是按照第二个元素的次序对元组进行排序;reverse=True表示按逆序进行排序
return sortedClassCount[0][0]
a,b = createDataSet()
print(classify0([0,0],a,b,3))
'''line 57 书上代码是classCount.iteritems()运行出错,改为classCount.items()就正确了
原因是Python3.X已经把iteritems()废除了!'''
'''
def test():# 测试其中的操作是什么作用
#可知,(4,1)中1是为了保证他重复四遍但是不在同一行
a = [1,1]
#重复4遍,后面的1保证重复完了是4行,而不是一行里有四个一样的
print(tile(a,4))#[0 0 0 0 0 0 0 0]
print(tile(a,(4,1)))
#[[0 0]
# [0 0]
# [0 0]
# [0 0]]
b=tile(a,(4,1))
group = array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]])
c=b-group
print(c)
d = c**2
print(d)
d1=d.sum(axis=1)
print(d1)
#argsort从小到大返回下标
print(d1.argsort())
#axis=0按列相加
#axis=1按行相加
e=sum([[1,1],[2,3]],axis=0)
#print(e)#[3,4]
f=sum([[1,1],[2,3]],axis=1)
#print(f)#[2,5]
test()
'''