利用python 简单的手写——k近邻算法

最新推荐文章于 2022-02-27 22:24:14 发布

另一个灵异的我

最新推荐文章于 2022-02-27 22:24:14 发布

阅读量239

点赞数

分类专栏：机器学习 python 文章标签： k_NN算法 python

本文链接：https://blog.csdn.net/qq_40425531/article/details/97613883

版权

python 同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

机器学习

0 篇文章 0 订阅

订阅专栏

算法，其实也不难，主要是在每一行代码的理解，你一行行的看过去，遇到不懂的，可以问老师，可以自己百度，都能得到很好的理解，一定得自己去理解，不然，你只是在复制粘贴，只知其用，不知其理。

而我们想手写算法，不就是想知其理吗？一下我用代码来讲解，代码直接copy，到python环境中，是可以直接运行的。

但我希望的是，你copy了之后，能够细细的去查看，去尝试修改你在意的每一行代码，看看结果的变化情况，最后做到能自己，不看老师的代码，写出一份自己的代码，得到准确的预测值。

在这希望同学们都能耐心的看下去，不要怕看不懂，慢慢来，急不得的。

"""
test: 待分类的数据(x_test)
dataset：训练数据集(x_train),array类型
labels：训练集对应的类别标签(y_train)
k：近邻数
"""
import numpy as np
import operator
from sklearn.model_selection import train_test_split


def KNNClassify(test, dataset, labels, k):
    # 计算数据集有多少个样本
    number = dataset.shape[0]

    # 这里使用的是欧式距离公式
    # 对测试数据（数组test）进行复制拼接，再进行数组运算，减去训练集，得到距离
    diff = np.tile(test, (number, 1)) - dataset
    # 测试集和训练集的距离平方，
    squaredist = diff ** 2
    # sum()所有元素相加，sum(0)列相加，sum(1)行相加
    # 元素相加，开平方
    distance = (squaredist.sum(axis=1)) ** 0.5  # axis=1,按行累加

    # 对数组distance按 升序排序（argsort），返回数组排序后的值对应的索引值
    sortedDistance = distance.argsort()

    # 定义一个空字典，存放k个近邻点的分类计数
    classCount = {}
    # 对k个近邻点分类计数
    for i in range(k):
        # 第i个近邻点在distance数组中的索引,对应的分类
        votelabel = labels[sortedDistance[i]]
        # dict.get(key,default=None),字典的get()方法,返回指定键的值,如果值不在字典中返回默认值。
        classCount[votelabel] = classCount.get(votelabel, 0) + 1

    # 对k个近邻点的分类计数按降序排序，
    # operator.itemgetter()函数创建的就是这样那个一个可调用对象，它接受字典的键名称、用数字表示的列表元素或是任何可以传给对象的__getitem__()方法的值；
    # 如果传多个标记给itemgetter(), 那么它产生的可调用对象将返回一个包含所有元素在内的元组。
    # key=operator.itemgetter(1)根据字典的值进行排序
    # key=operator.itemgetter(0)根据字典的键进行排序
    # reverse降序排序字典，返回得票数最多的分类结果
    predict = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
    print("测试数据的预测类别是:", predict[0][0])
    return predict[0][0]


# 获取鸢尾花数据集，如果没有这个包，其实是一个数据集来的，下载下来就好了
from sklearn.datasets import load_iris
iris = load_iris()
# 切分数据集，iris.data：为特征值，iris.target：为目标值，
x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.3, random_state=22)
# 要分类的数据
test_index = 10
# 使用刚刚我们写的分类器，对测试数据进行预测分类
predict = KNNClassify(x_test[test_index], x_train, y_train, 20)
print("测试的实际类别是：", y_test[test_index])
if predict == y_test[test_index]:
    print("预测准确!")
else:
    print("预测错误！")

以上就是详细的代码，这个代码是很简陋的，还有很多地方可以提升，希望同学们在，看完之后，能去尝试，修改，优化，如此，才能是真正的学到了。

如有不到之处还请谅解，如有错误，也请留言，指出

参考的大佬的文章：

机器学习实战教程（一）：K-近邻算法（史诗级干货长文）

另一个灵异的我

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
利用python 简单的手写——k近邻算法

算法，其实也不难，主要是在每一行代码的理解，你一行行的看过去，遇到不懂的，可以问老师，可以自己百度，都能得到很好的理解，一定得自己去理解，不然，你只是在复制粘贴，只知其用，不知其理。而我们想手写算法，不就是想知其理吗？一下我用代码来讲解，代码直接copy，到python环境中，是可以直接运行的。但我希望的是，你copy了之后，能够细细的去查看，去...
复制链接

扫一扫