机器学习实战---k近邻算法

最新推荐文章于 2019-12-09 17:26:57 发布

圈圈9527

最新推荐文章于 2019-12-09 17:26:57 发布

阅读量231

点赞数

文章标签：机器学习实战 kNN算法

本文链接：https://blog.csdn.net/carl95271/article/details/80317830

版权

kNN算法具体描述可以参见李航的《统计学习方法》

kNN算法的伪码过程如下：

（1）计算已知类别数据集中的点与当前点之间的距离；

（2）按照距离递增次序排序；

（3）选取与当前点距离最小的k个点；

（4）确定前k个点所在类别的出现频率；

（5）返回前k个点出现频率最高的类别作为当前点的预测分类；

kNN代码详解如下：

def classify0(inX, dataSet, labels, k):
    dataSetSize = dataSet.shape[0]          #首先获取已知类别数据点的个数，既输入特征矩阵的行数

    diffMat = tile(inX, (dataSetSize,1)) - dataSet   

    #tile函数是numpy库中的一个模块，此处具体的功能是讲向量inX按照行方向重复dataSetSize次，列方向重复1次。

    sqDiffMat = diffMat**2          #求矩阵diffMat中每个元素的平方
    sqDistances = sqDiffMat.sum(axis=1)     #将矩阵sqDiffMat每一行求和
    distances = sqDistances**0.5    

    sortedDistIndicies = distances.argsort()    

    #argsort()函数是numpy的模块，此处用来返回distances元素从小到大排序好之后的索引

    classCount={}          #建立字典，将用来存放k个点中的标签种类和对应的出现次数
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]   #取到前k个点的类别
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1    

        #此句与循环结合，目的是用来统计某一类别标签在k个点中出现的次数

        #get函数，用来返回键voteIlabel的值，如果不存在，就返回0，如果存在就返回該值，并加1

    sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)

    #sorted()函数用法：python的Build-in函数 sorted(iterable, cmp=None, key=None, reverse=False) --> new sorted list

        #iterable是可迭代类型;

        #cmp：用于比较的函数，比较什么由key决定;

        #key：用列表元素的某个属性或函数（此例中是函数）进行作为关键字，有默认值，迭代集合中的一项;

        #reverse：排序规则. reverse = True  降序 或者 reverse = False 升序，有默认值。

        #返回值：是一个经过排序的可迭代类型，与iterable一样。

    #iteritems()函数用法：此处将字典classCount转变成可迭代的对象，书上说是分解为元祖列表

    #operator.itemgetter(1)：定义一个函数，用于获取对象的哪些维的数据，参数为一些序号（即需要获取的数据在对象中的序号）

    return sortedClassCount[0][0]        #返回出现次数最大的那个类别标签

准备数据阶段：将文本文件转换成Numpy的解析程序：

def file2matrix(filename): #将文本记录转换为Numpy的解析程序
		fr=open(filename)   #打开文件，并且返回一个表示文件的对象
		arrayOLines = fr.readlines() #readlines()方法读取整个文件所有行，保存在一个列表(list)变量中，每行（字符串类型）作为一个元素，但读取大文件会比较占内存。
		numberOfLines = len(arrayOLines)  #获取列表的元素个数，既读入文件的行数
		returnMat = zeros((numberOfLines,3)) #zeros函数的返回对象是numpy中的array数组结构
		classLabelVector = [] #创建一个空列表，用来存放类别
		index = 0
		for line in arrayOLines:
			line = line.strip()  #删除每一行数据的头和尾的空格,line是类型是列表的元素，既是字符串
			listFromLine = line.split('\t')  #以制表符对字符串进行分割，将一个字符串分割成多个字符串组成的列表
			returnMat[index, : ] = listFromLine[0:3]  #将列表listFromLine前3个数据，赋给returnMat第index行的，前2列
			classLabelVector.append(int(lisFromLine[-1]))  #将每一行的最后一个数字（转化成整型），然后加入到列表里面
			index+=1
		return returnMat,classLabelVector    #返回存放特征的array数组（元素以字符串的类型存放），和存放类别的列表

由于各特征值之间的差异比较大，需要归一化，需要将每个点的三个特征值转化到（0，1）区间内：

def autoNorm(dataSet):  
		minVals=dataSet.min(0)
		maxVals=dataSet.max(0)
		ranges= maxVals-minVals
		normDataSet=zeros(shape(dataSet))
		m=dataSet.shape[0]  #返回dataSet第一维度的数目，既是行数
		normDataSet=dataSet-tile(minVals,(m,1))
		normDataSet=normDataSet/tile(range,(m,1))
		return normDataSet,ranges,minVals

一般用已有数据的90%作为训练样本，10%去测试分类器

def datingClassTest(): #测试代码
		hoRatio=0.10
		datingDataMat,datingLabels=file2matrix('datingTestSet.txt')
		normsMat,ranges,minVals=autoNorm(datingDataMat) #归一化特征矩阵
		m=normsMat.shape[0]
		numTestVecs=int(m*hoRatio)  #用来测试的数据的数量numTestVecs
		errorCount=0.0
		for i in range(numTestVecs):
			classifierResult=classify0(normMat[i, : ],normsMat[numTestVecs:m,:],datingLabels[numTestVecs:m],3)
			#数据的前numTestVecs行用来测试，后面的剩下的用来训练
			print "the classifier came back with: %d, the real answer is: %d" % (classifierResult, datingLabels[i])
			if(classifierResult != datingLabels[i]):	errorCount +=1.0
		print "the total error rate is: %f" % (errorCount/float(numTestVecs))
		print errorCount

构建完整的可用系统：从网站获取信息并作出判断

def classifyPerson():
		resultList=['not at all','in small doses','in large doses']
		percentTats=float(raw_input("percentage of time spent playing video games?"))
		ffMiles=float(raw_input("frequent flier miles earned per year?"))
		iceCream=float(raw_input("liters of ice cream consumed per year?"))
		datingDataMat,datingLabels=file2matrix('datingTestSet2.txt')
		normsMat,ranges,minVals=autoNorm(datingDataMat) 
		inArr=array([ffMiles,percentTats,iceCream])
		classifierResult=classify0((inArr-minVals)/ranges,normsMat,datingLabels,3)
		print "You will probably like this person:",resultList[classifierResult-1]

圈圈9527

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习实战---k近邻算法

kNN算法具体描述可以参见李航的《统计学习方法》kNN算法的伪码过程如下：（1）计算已知类别数据集中的点与当前点之间的距离；（2）按照距离递增次序排序；（3）选取与当前点距离最小的k个点；（4）确定前k个点所在类别的出现频率；（5）返回前k个点出现频率最高的类别作为当前点的预测分类；kNN代码详解如下：def classify0(inX, dataSet, labels, k): dataS...
复制链接

扫一扫