- k近邻算法的工作原理:
存在一个样本数据集合(训练样本集),并且样本集中每个数据都存在标签,我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集合中前k个最相似的数据,通常k是不大于20的整数。最后,选择k个最相似数据中出现次数最多的分类,作为新数据的分类。
- kNN实现伪代码:
(1)计算已知类别数据集中的点与当前点之间的距离;
(2)按照距离递增次序排序;
(3)选取与当前点距离最小的k个点;
(4)确定前k个点所在类别的出现频率;
(5)返回前k个点出现频率最高的类别作为当前点的预测分类。
代码实现
def kNN(inX, dataSet, labels, k):
dataSetSize = dataSet.shape[0]
diffMat = tile(inX,(dataSetSize,1)) - dataSet
sqDiffMat = diffMat ** 2
sqDistance = sqDiffMat.sum(axis=1)
distances = sqDistance ** 0.5
sortedDistIndicies = distances.argsort()
ClassCount = {}
for i in range(k):
voteIlabel = labels[sortedDistIndicies[i]]
ClassCount[voteIlabel] = ClassCount.get(voteIlabel, 0) + 1
sortedClassCount = sorted(ClassCount.iteritems(), key=operator.itemgetter(1), reverse=True)
return sortedClassCount[0][0]
(1)kNN函数输入的四个参数:用于分类的输入向量inX,输入的训练样本集为dataSet,标签向量labels,选择最近邻的数目k
(2)dataSetSize=dataSet.shape[0] //训练样本集dataSet的第一维大小(样本数量)
(3)numpy.tile(A,reps) //Construct an array by repeating A the number of times given by reps.
(4)** 次方操作
(5)get函数,详见这里
(6)sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)
这里使用了sorted()函数sorted(iterable, cmp=None, key=None, reverse=False),iteritems()将dict分解为元组列表,operator.itemgetter(1)表示按照第二个元素的次序对元组进行排序,reverse=True降序