机器学习实战---k近邻算法

kNN算法具体描述可以参见李航的《统计学习方法》

kNN算法的伪码过程如下:

(1)计算已知类别数据集中的点与当前点之间的距离;

(2)按照距离递增次序排序;

(3)选取与当前点距离最小的k个点;

(4)确定前k个点所在类别的出现频率;

(5)返回前k个点出现频率最高的类别作为当前点的预测分类;


kNN代码详解如下:

def classify0(inX, dataSet, labels, k):
    dataSetSize = dataSet.shape[0]          #首先获取已知类别数据点的个数,既输入特征矩阵的行数

    diffMat = tile(inX, (dataSetSize,1)) - dataSet   

    #tile函数是numpy库中的一个模块,此处具体的功能是讲向量inX按照行方向重复dataSetSize次,列方向重复1次。

    sqDiffMat = diffMat**2          #求矩阵diffMat中每个元素的平方
    sqDistances = sqDiffMat.sum(axis=1)     #将矩阵sqDiffMat每一行求和
    distances = sqDistances**0.5    

    sortedDistIndicies = distances.argsort()    

    #argsort()函数是numpy的模块,此处用来返回distances元素从小到大排序好之后的索引

    classCount={}          #建立字典,将用来存放k个点中的标签种类和对应的出现次数
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]   #取到前k个点的类别
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1    

        #此句与循环结合,目的是用来统计某一类别标签在k个点中出现的次数

        #get函数,用来返回键voteIlabel的值,如果不存在,就返回0,如果存在就返回該值,并加1

    sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)

    #sorted()函数用法:python的Build-in函数 sorted(iterable, cmp=None, key=None, reverse=False) --> new sorted list

        #iterable是可迭代类型;

        #cmp:用于比较的函数,比较什么由key决定;

        #key:用列表元素的某个属性或函数(此例中是函数)进行作为关键字,有默认值,迭代集合中的一项;

        #reverse:排序规则. reverse = True  降序 或者 reverse = False 升序,有默认值。

        #返回值:是一个经过排序的可迭代类型,与iterable一样。

    #iteritems()函数用法:此处将字典classCount转变成可迭代的对象,书上说是分解为元祖列表

    #operator.itemgetter(1):定义一个函数,用于获取对象的哪些维的数据,参数为一些序号(即需要获取的数据在对象中的序号)

    return sortedClassCount[0][0]        #返回出现次数最大的那个类别标签

准备数据阶段:将文本文件转换成Numpy的解析程序:

def file2matrix(filename): #将文本记录转换为Numpy的解析程序
		fr=open(filename)   #打开文件,并且返回一个表示文件的对象
		arrayOLines = fr.readlines() #readlines()方法读取整个文件所有行,保存在一个列表(list)变量中,每行(字符串类型)作为一个元素,但读取大文件会比较占内存。
		numberOfLines = len(arrayOLines)  #获取列表的元素个数,既读入文件的行数
		returnMat = zeros((numberOfLines,3)) #zeros函数的返回对象是numpy中的array数组结构
		classLabelVector = [] #创建一个空列表,用来存放类别
		index = 0
		for line in arrayOLines:
			line = line.strip()  #删除每一行数据的头和尾的空格,line是类型是列表的元素,既是字符串
			listFromLine = line.split('\t')  #以制表符对字符串进行分割,将一个字符串分割成多个字符串组成的列表
			returnMat[index, : ] = listFromLine[0:3]  #将列表listFromLine前3个数据,赋给returnMat第index行的,前2列
			classLabelVector.append(int(lisFromLine[-1]))  #将每一行的最后一个数字(转化成整型),然后加入到列表里面
			index+=1
		return returnMat,classLabelVector    #返回存放特征的array数组(元素以字符串的类型存放),和存放类别的列表

由于各特征值之间的差异比较大,需要归一化,需要将每个点的三个特征值转化到(0,1)区间内:

def autoNorm(dataSet):  
		minVals=dataSet.min(0)
		maxVals=dataSet.max(0)
		ranges= maxVals-minVals
		normDataSet=zeros(shape(dataSet))
		m=dataSet.shape[0]  #返回dataSet第一维度的数目,既是行数
		normDataSet=dataSet-tile(minVals,(m,1))
		normDataSet=normDataSet/tile(range,(m,1))
		return normDataSet,ranges,minVals

一般用已有数据的90%作为训练样本,10%去测试分类器

def datingClassTest(): #测试代码
		hoRatio=0.10
		datingDataMat,datingLabels=file2matrix('datingTestSet.txt')
		normsMat,ranges,minVals=autoNorm(datingDataMat) #归一化特征矩阵
		m=normsMat.shape[0]
		numTestVecs=int(m*hoRatio)  #用来测试的数据的数量numTestVecs
		errorCount=0.0
		for i in range(numTestVecs):
			classifierResult=classify0(normMat[i, : ],normsMat[numTestVecs:m,:],datingLabels[numTestVecs:m],3)
			#数据的前numTestVecs行用来测试,后面的剩下的用来训练
			print "the classifier came back with: %d, the real answer is: %d" % (classifierResult, datingLabels[i])
			if(classifierResult != datingLabels[i]):	errorCount +=1.0
		print "the total error rate is: %f" % (errorCount/float(numTestVecs))
		print errorCount

构建完整的可用系统:从网站获取信息并作出判断

def classifyPerson():
		resultList=['not at all','in small doses','in large doses']
		percentTats=float(raw_input("percentage of time spent playing video games?"))
		ffMiles=float(raw_input("frequent flier miles earned per year?"))
		iceCream=float(raw_input("liters of ice cream consumed per year?"))
		datingDataMat,datingLabels=file2matrix('datingTestSet2.txt')
		normsMat,ranges,minVals=autoNorm(datingDataMat) 
		inArr=array([ffMiles,percentTats,iceCream])
		classifierResult=classify0((inArr-minVals)/ranges,normsMat,datingLabels,3)
		print "You will probably like this person:",resultList[classifierResult-1]

阅读更多
想对作者说点什么? 我来说一句

机器学习实战 源代码

2015年11月16日 12.7MB 下载

没有更多推荐了,返回首页

不良信息举报

机器学习实战---k近邻算法

最多只允许输入30个字

加入CSDN,享受更精准的内容推荐,与500万程序员共同成长!
关闭
关闭