头歌KNN算法详解

Sherri535

已于 2024-04-22 16:53:22 修改

阅读量1.1k

点赞数 25

文章标签：算法 python

于 2024-04-22 16:52:50 首次发布

本文链接：https://blog.csdn.net/2302_80089843/article/details/138082395

版权

本关任务：补充 python 代码，完成 kNNClassifier 类中的 fit 函数与 predict 函数。实现 kNN 算法的训练与预测功能。

为了完成本关任务，你需要掌握 kNN 算法的算法流程。

kNN 算法其实是众多机器学习算法中最简单的一种，因为该算法的思想完全可以用 8 个字来概括：“近朱者赤，近墨者黑”。

假设现在有这样的一个样本空间，该样本空间里有宅男和文艺青年这两个类别，其中红圈表示宅男，绿圈表示文艺青年。如下图所示：

其实构建出这样的样本空间的过程就是 kNN 算法的训练过程。可想而知 kNN 算法是没有训练过程的，所以 kNN 算法属于懒惰学习算法。

假设我在这个样本空间中用黄圈表示，如下图所示：

现在使用 kNN 算法来鉴别一下我是宅男还是文艺青年。首先需要计算我与样本空间中所有样本的距离。假设计算得到的距离表格如下：

样本编号	1	2	...	13	14
标签	宅男	宅男	...	文艺青年	文艺青年
距离	11.2	9.5	...	23.3	37.6

然后找出与我距离最小的 k 个样本(k 是一个超参数，需要自己设置，一般默认为 5)，假设与我离得最近的 5 个样本的标签和距离如下：

样本编号	4	5	6	7	8
标签	宅男	宅男	宅男	宅男	文艺青年
距离	11.2	9.5	7.7	5.8	15.2

最后只需要对这 5 个样本的标签进行统计，并将票数最多的标签作为预测结果即可。如上表中，宅男是 4 票，文艺青年是 1 票，所以我是宅男。

注意：有的时候可能会有票数一致的情况，比如 k=4 时与我离得最近的样本如下：

样本编号	4	9	11	13
标签	宅男	宅男	文艺青年	文艺青年
距离	4.2	9.5	7.7	5.8

可以看出宅男和文艺青年的比分是 2:2，那么可以尝试将属于宅男的 2 个样本与我的总距离和属于文艺青年的 2 个样本与我的总距离进行比较。然后选择总距离最小的标签作为预测结果。在这个例子中预测结果为文艺青年(宅男的总距离为 4.2+9.5，文艺青年的总距离为 7.7+5.8)。

从算法流程中可以看出，kNN 算法的优点有：

缺点也很明显：

根据提示，在右侧编辑器的 begin-end 区域补充代码，完成 kNNClassifier 类中的 fit 函数与 predict 函数。

fit 函数用于 kNN 算法的训练过程，其中：

predict 函数用于实现 kNN 算法的预测过程，函数返回预测的标签，其中：

只需完成 fit 与 predict 函数即可，程序内部会调用您所完成的 fit 函数构建模型并调用 predict 函数来对数据进行预测。预测的准确率高于 0.9 视为过关。

题目给的feature时38*5的二维数组即后面的self.train_feature

所以答案中37,55行中的test_data，vec都是1*5一维数组，

所以37行代表一个五维的点与五维的点的距离

关注