算法,其实也不难,主要是在每一行代码的理解,你一行行的看过去,遇到不懂的,可以问老师,可以自己百度,都能得到很好的理解,一定得自己去理解,不然,你只是在复制粘贴,只知其用,不知其理。
而我们想手写算法,不就是想知其理吗?一下我用代码来讲解,代码直接copy,到python环境中,是可以直接运行的。
但我希望的是,你copy了之后,能够细细的去查看,去尝试修改你在意的每一行代码,看看结果的变化情况,最后做到能自己,不看老师的代码,写出一份自己的代码,得到准确的预测值。
在这希望同学们都能耐心的看下去,不要怕看不懂,慢慢来,急不得的。
"""
test: 待分类的数据(x_test)
dataset:训练数据集(x_train),array类型
labels:训练集对应的类别标签(y_train)
k:近邻数
"""
import numpy as np
import operator
from sklearn.model_selection import train_test_split
def KNNClassify(test, dataset, labels, k):
# 计算数据集有多少个样本
number = dataset.shape[0]
# 这里使用的是欧式距离公式
# 对测试数据(数组test)进行复制拼接,再进行数组运算,减去训练集,得到距离
diff = np.tile(test, (number, 1)) - dataset
# 测试集和训练集的距离平方,
squaredist = diff ** 2
# sum()所有元素相加,sum(0)列相加,sum(1)行相加
# 元素相加,开平方
distance = (squaredist.sum(axis=1)) ** 0.5 # axis=1,按行累加
# 对数组distance按 升序排序(argsort),返回数组排序后的值对应的索引值
sortedDistance = distance.argsort()
# 定义一个空字典,存放k个近邻点的分类计数
classCount = {}
# 对k个近邻点分类计数
for i in range(k):
# 第i个近邻点在distance数组中的索引,对应的分类
votelabel = labels[sortedDistance[i]]
# dict.get(key,default=None),字典的get()方法,返回指定键的值,如果值不在字典中返回默认值。
classCount[votelabel] = classCount.get(votelabel, 0) + 1
# 对k个近邻点的分类计数按降序排序,
# operator.itemgetter()函数创建的就是这样那个一个可调用对象,它接受字典的键名称、用数字表示的列表元素或是任何可以传给对象的__getitem__()方法的值;
# 如果传多个标记给itemgetter(), 那么它产生的可调用对象将返回一个包含所有元素在内的元组。
# key=operator.itemgetter(1)根据字典的值进行排序
# key=operator.itemgetter(0)根据字典的键进行排序
# reverse降序排序字典,返回得票数最多的分类结果
predict = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
print("测试数据的预测类别是:", predict[0][0])
return predict[0][0]
# 获取鸢尾花数据集,如果没有这个包,其实是一个数据集来的,下载下来就好了
from sklearn.datasets import load_iris
iris = load_iris()
# 切分数据集,iris.data:为特征值,iris.target:为目标值,
x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.3, random_state=22)
# 要分类的数据
test_index = 10
# 使用刚刚我们写的分类器,对测试数据进行预测分类
predict = KNNClassify(x_test[test_index], x_train, y_train, 20)
print("测试的实际类别是:", y_test[test_index])
if predict == y_test[test_index]:
print("预测准确!")
else:
print("预测错误!")
以上就是详细的代码,这个代码是很简陋的,还有很多地方可以提升,希望同学们在,看完之后,能去尝试,修改,优化,如此,才能是真正的学到了。
如有不到之处还请谅解,如有错误,也请留言,指出
参考的大佬的文章: