这里是《机器学习实战》中第二章KNN的代码部分解释。
代码参考的是:https://www.bilibili.com/video/BV16t411Q7TM
主要是边看这个视频边自己查资料学习的。
KNN最常用的是欧式距离,它没有训练过程,直接就是分类
常用的向量距离度量准则:
欧式距离、曼哈顿距离、切比雪夫距离、马氏距离、巴氏距离、汉明距离、皮尔逊系数、信息熵,部分相关公式与python代码见:
https://blog.csdn.net/weixin_43330946/article/details/105032182
优点:精度高、对异常值不敏感、无数据输入假定(朴素贝叶斯需要假设样本之间独立、高斯分布)。
缺点:计算复杂度高(每一个样本都要计算)、空间复杂度高。
使用数据范围:数值型和标称型。
代码1:
已知4个样本的类别,再输入一个新的样本判断其属于哪一类:
import numpy as np
import operator
def creatDataSet():
group = np.array([[1,101], [5,89], [100,5], [115,8]])
labels = ['爱情片','爱情片','动作片','动作片']
return group, labels
def classify0(inX, dataSet, labels, k):
dataSetSize = dataSet.shape[0]#0表示行数
#np.tile表示复制:在列方向上重复inX共1次,行方向上重复inX共dataSetSize次
diffMat = np.tile(inX, (dataSetSize, 1)) - dataSet
sqDiffMat = diffMat ** 2#特征相减后平方
sqDistances = sqDiffMat.sum(axis=1)#sum(0)列相加,sum(1)行相加
distances = sqDistances ** 0.5
sortedDistIndices = distances.argsort()#返回distance中元素从小到大排序后的索引值
#定义一个记录类别次数的字典
classCount = {}
for i in range(k):
#取出前k个样本的相关索引
voteIlable = labels[sortedDistIndices[i]]#取出第i个样本的类别
#计算类别次数
classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1
#对获取的类别数量进行排序
sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
#key=operator.itemgetter(1)根据字典的值进行排序,
#key=operator.itemgetter(0)根据字典的键进行排序,
#reverse=True降序排序字典
return sortedClassCount[0][0]
if __name__ == '__main__':
group, labels = createDataSet()
test = [101, 20]
test_class = classify0(test , group, labels, 3)
print(test_class)
代码2:
约会网站配对效果判定