KNN最邻近分类算法

最新推荐文章于 2024-08-11 22:50:26 发布

Kenny_SI

最新推荐文章于 2024-08-11 22:50:26 发布

阅读量529

点赞数

文章标签： python 机器学习

本文链接：https://blog.csdn.net/weixin_38072029/article/details/111309479

版权

KNN（K-Nearest-Neighbor）算法是一种基于距离度量的分类方法，通过找到测试数据与训练集中最相似的K个点来决定分类。本文介绍了KNN的基本思想、步骤、K值选择的影响，以及K-D树的优化方法。KNN算法在精度和多分类场景下表现出优势，但存在计算复杂度高的问题。案例展示了简单的KNN算法实现。

摘要由CSDN通过智能技术生成

KNN（K-Nearest-Neighbor）最邻近分类算法

提出问题

已知N维空间中若干个点的坐标，以及这些点所属的类别(子空间)。给定新的点坐标，如何判断该点应被划入哪个类别(子空间)？

分析问题

KNN（K-Nearest-Neighbor）算法基本思想：

已知一批数据集及其对应的分类标签，输入测试数据，将测试数据的特征与训练集中对应的特征进行相互比较，找到训练集里与之最为相似的前K个数据，则该测试数据对应的类别就是K个数据中出现次数最多的那个分类。
具体步骤：
(1) 计算测试数据与各个训练数据之间的距离；
(2) 按照距离的递增关系进行排序；
(3) 选取距离最小的K个点；
(4) 确定前K个点所在类别的出现频率；
(5) 返回前K个点中出现频率最高的类别作为测试数据的预测分类。
每次预测时，必须即时跟所有训练数据进行计算，因此工作量很大。

K值的选取：

K可以视为一个hyper-parameter(超参数)，一般需要通过交叉验证的方法来选取最优值
如果K值太小就意味着整体模型变得复杂，容易发生过拟合(High Variance)，即如果邻近的实例点恰巧是噪声，预测就会出错，极端的情况是K=1，称为最近邻算法，对于待预测点x，与x最近的点决定了x的类别
K值的增大意味着整体的模型变得简单，极端的情况是K=N，那么无论输入实例是什么，都简单地预测它属于训练集中最多的类。这样的模型过于简单，容易发生欠拟合(High Bias)

K-D树方法：