KNN算法
邻近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。
所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。
Cover和Hart在1968年提出了最初的邻近算法。
特点: KNN是一种分类(classification)算法,它输入基于实例的学习(instance-based learning),属于懒惰学习(lazy learning)即KNN没有显式的学习过程,也就是说 没有训练阶段 ,数据集事先已有了分类和特征值,待收到新样本后直接进行处理。
# KNN算法流程
# 1)计算测试数据与各个训练数据之间的距离;
# 2)按照距离的递增关系进行排序;
# 3)选取距离最小的 K 个点;
# 4)确定前 K 个点所在类别的出现频率;
# 5)返回前 K 个点中出现频率最高的类别作为测试数据的预测分类
import numpy as np
import operator
def createDataset():
# 6 组二维特征
group = np.array([[5, 115], [7, 106], [56, 11], [66, 9], [51, 51], [16, 79]])
# 6 组类标记
labels = ('S Class', 'B Class', 'C Class', 'D Class', 'E Class', 'F Class')
return group, labels
def KNN(intX, dataSet, labels, k):
# KNN算法
##### 1)计算测试数据与各个训练数据之间的距离;
# numpy中shape[0]返回数组dataSet的行数,shape[1]返回dataSet的列数
dataSetSize = dataSet.shape[0]
# 将intX在横向重复dataSetSize次,纵向重复1次
# 例如intX=([1,2])--->([[1,2],[1,2],[1,2],[1,2]])便于后面计算
diffMat = np.tile(intX, (dataSetSize, 1)) - dataSet
# 二维特征相减后乘方
sqdifMax = diffMat ** 2
# 计算距离 axis=1 把列看作一个整体 axis=0 把行看作一个整体
seqDistances = sqdifMax.sum(axis=1)
distances = seqDistances ** 0.5
print("distances:", distances)
##### 2)按照距离的递增关系进行排序;
# 返回distance中元素从小到大排序后的 索引
sortDistance = distances.argsort()
print("sortDistance:", sortDistance)
classCount = {}
##### 3)选取距离最小的 K 个点;
##### 4)确定前 K 个点所在类别的出现频率;
for i in range(k):
# 取出前k个元素的类别
voteLabel = labels[sortDistance[i]]
print("第 %d 个 voteLabel = %s" % (i, voteLabel))
classCount[voteLabel] = classCount.get(voteLabel, 0) + 1
# dict.get(key,default=None),字典的get()方法,返回指定键的值,如果值不在字典中返回默认值。
##### 5)返回前 K 个点中出现频率最高的类别作为测试数据的预测分类
# key=operator.itemgetter(1)根据字典的值进行排序
# key=operator.itemgetter(0)根据字典的键进行排序
# reverse :True = 降序排序字典 , False = 升序排序字典
sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
# 结果sortedClassCount = [('动作片', 2), ('爱情片', 1)]
print("sortedClassCount:", sortedClassCount)
return sortedClassCount[0][0]
if __name__ == '__main__':
group, labels = createDataset()
test = [20, 101]
test_class = KNN(test, group, labels, 3)
print(test_class)