一.概念
k-邻近算法是最简单的机器学习算法之一。
k-邻近算法采用测量不同特征值之间的距离(具体说是欧氏距离)的方法进行分类。
输入待分类的数据后,计算输入特征与样本集数据对应特征的距离,选择样本集中与输入特征距离最小的前k个样本,统计这k个样本数据中出现次数最多的类别作为新数据的分类。
二.kNN的简单实施代码及注释
from numpy import *
import operator
def creatDataSet():
dataSet = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
labels = ['A','A','B','B']
return dataSet,labels
def classify0(inX,dataSet,labels,k):
#求出样本集的行数,也就是labels标签的数目
dataSetSize = dataSet.shape[0]
#构造输入值和样本集的差值矩阵
diffMat = tile(inX,(dataSetSize,1)) - dataSet
#计算欧式距离
sqDiffMat = diffMat**2
sqDistances = sqDiffMat.sum(axis=1)
distances = sqDistances**0.5
#求距离从小到大排序的序号
sortedDistIndicies = distances.argsort()
#对距离最小的k个点统计对应的样本标签
classCount = {}
for i in range(k):
#取第i+1邻近的样本对应的类别标签
voteIlabel = labels[sortedDistIndicies[i]]
#以标签为key,标签出现的次数为value将统计到的标签及出现次数写进字典
classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
#对字典按value从大到小排序
sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
#返回排序后字典中最大value对应的key
return sortedClassCount[0][0]
三.详细解读
这里创建的是一个名为kNN.py的模块。
首先导入了两个模块,一个是科学计算包numpy,另一个是运算符模块,书中有提到。
接着是一个创建数据集的无参函数creatDataSet(),一共4个样本,每个样本有2个特征和1个分类标签。特征集以4*2的数组形式表示,类别标签集以列表的形式表示。
接下来是一个有4个参数的分类函数classify0(inX,dataSet,labels,k):
inX表示待分类的输入特征向量,
dataSet为样本集的特征,
labels为样本集对应每一个样本的分类标签,
k为选择最近距离的样本的数目。
其中dataSet和labels由creatDataSet()函数返回。
★ dataSetSize = dataSet.shape[0]
求出样本集的行数,即样本个数,也是分类标签labels列表里元素的个数。
shape用于返回一个矩阵或数组的大小,返回的是一个元组,即(行数,列数)。如下:
>>> import kNN
>>> dataSet,labels=kNN.creatDataSet()
>>> dataSet.shape
(4, 2)
>>> dataSet
array([[ 1. , 1.1],
[ 1. , 1. ],
[ 0. , 0. ],
[ 0. , 0.1]])
>>> dataSet.shape
(4, 2)
>>> dataSet.shape[0]
4
>>> dataSet.shape[1]
2
>>> type(dataSet.shape)
<class 'tuple'>
故这里,
shape[0]即得到shape元组的第一个元素,dataSet的行数;
shape[1]即得到shape元组的第二个元素,dataSet的列数;
当有 n 个特征时,欧式距离