时间:20180716-20180722
from numpy import * import operator def createDataSet():#给定4组数据 group=array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])#点的集合 labels=['A','A','B','B']#点标签 return group,labels def classify(inX,dataSet,labels,k):#kNN算法:4个输入参数:{(分类输入向量,inX(分类坐标)),(输入训练样本集,dataSet(createDataSet的array,已经分类过的坐标)),(标签向量(分类标签),labels),(最近邻居的数目,k)} dataSetSize=dataSet.shape[0] #dataSetSize是dataSet的行数 shape是用来取矩阵维度的长度的函数 diffMat=tile(inX,(dataSetSize,1))-dataSet #diffMat得到了目标与训练数组的差值 # tile函数是在numpy。lib。shape_base里的,作用是重复某个数组 # 比如tile(A,n),功能是将数组A重复n次,构成一个新的数组 # 前面用tile,把一行inX变成4行一模一样的 # tile有重复的功能,dataSetSize是重复4遍,后面的1保证重复完了是4行,而不是一行里有四个一样的 # 然后再减去dataSet,是为了求两点的距离,先要坐标相减,这个就是坐标相减 sqDiffMat=diffMat**2 #元素平方 sqDistances=sqDiffMat.sum(axis=1)#axis=1是列相加,,这样得到了(x1-x2)^2+(y1-y2)^2 distances=sqDistances**0.5 #开方求距离 sortedDistances=distances.argsort()#升序排序,将元素按照由小到大的顺序返回下标,比如([3,1,2]),它返回的就是([1,2,0] classCount={} for i in range(k):#选择距离最小的k个点 voteIlabel=labels[sortedDistances[i]] classCount[voteIlabel]=classCount.get(voteIlabel,0)+1 # get是取字典里的元素 # 如果之前这个voteIlabel是有的,那么就返回字典里这个voteIlabel里的值 # 如果没有就返回0(后面写的),这行代码的意思就是算离目标点距离最近的k个点的类别 # 这个点是哪个类别哪个类别就加1 sortedClassCount=sorted(classCount.items(),key=operator.itemgetter(1),reverse=True) # key=operator.itemgetter(1)的意思是按照字典里的第一个排序 # {A:1,B:2},要按照第1个(AB是第0个),即‘1’‘2’排序。 # reverse=True是降序排序 return sortedClassCount[0][0]#返回类别最多的类别
学习机器学习实战那本书的第一个算法。必须得记录一下这么重要的first 哈哈