# -*- coding: utf-8 -*-
"""
Created on Wed Jan 25 13:45:32 2017
@author: Administrator
"""
#KNN,K-近邻算法
from numpy import *
import operator #运算符模块
#建样本集
def createDataSet():
group = array([[1.0,1.1], [1.0,1.0], [0,0], [0,0.1]])
labels = ['A', 'A', 'B', 'B']
return group, labels
# k-近邻算法
def classify0(inX, dataSet, labels, k):
dataSetSize = dataSet.shape[0] #获取样本集行数
#算待分类数据(如[1.2,0.8])与样本集每行的欧拉距离
diffMat = tile(inX, (dataSetSize, 1)) - dataSet
sqDiffMat = diffMat**2
sqDistances = sqDiffMat.sum(axis=1) #按行相加,每一行都是dx^2 + dy^2
distances = sqDistances**0.5
#返回距离从小到大排序的索引,如[1.5, 1.4, 0, 0.1],返回的是[2, 3, 1, 0],即最小的数原来的索引为2,最大的数原来的索引为0
sortedDistIndicies = distances.argsort()
#返回前K个里面出现频率最高的,作为当前的预测分类
classCount={}
for i in range(k):
voteIlabel = labels[sortedDistIndicies[i]]
classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
'''
#get是取字典里的元素,如果之前这个voteIlabel是有的,那么就返回字典里这个voteIlabel里的值,
如果没有就返回0(后面写的),这行代码的意思就是算离目标点距离最近的k个点的类别,这个点是哪个类别哪个类别就加1
'''
sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1),reverse=True)
'''
#key=operator.itemgetter(1)的意思是
按照字典里的值排序,{A:1,B:2},要按照值(A,B是键),即‘1’‘2’排序。reverse=True是降序排序
'''
return sortedClassCount[0][0]
测试如下:
结果:
'A'