K近邻（KNN）算法总结

陈小虾

于 2019-08-08 21:35:14 发布

阅读量4.2k

点赞数

分类专栏：机器学习文章标签： K近邻 KNN

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ch18328071580/article/details/98884623

版权

K近邻（KNN）是一种基于实例的学习，属于懒惰学习，没有训练阶段，直接对新样本进行处理。本文详细介绍了KNN算法的原理，包括分类决策规则、k值选择、距离度量等关键要素。KNN算法通过计算测试数据与训练数据之间的距离来确定分类，常用的距离度量是欧氏距离。k值的选择和距离度量对算法性能有很大影响。此外，文章还讨论了KNN的蛮力实现、KD树和球树的优化实现，以及算法的优缺点。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

一、KNN原理
二、KNN的三要素
三、KNN算法实现
四、KNN算法总结
五、项目实战

邻近算法，或者说K近邻(kNN，k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻，就是k个最近的邻居的意思，说的是每个样本都可以用它最接近的k个邻居来代表。Cover和Hart在1968年提出了最初的邻近算法。KNN是一种分类(classification)算法，它输入基于实例的学习（instance-based learning），属于懒惰学习（lazy learning）即KNN没有显式的学习过程，也就是说没有训练阶段，数据集事先已有了分类和特征值，待收到新样本后直接进行处理。与急切学习（eager learning）相对应。

一、KNN原理

KNN做回归和分类的主要区别在于最后做预测时候的决策方式不同。KNN做分类预测时，一般是选择多数表决法，即训练集里和预测的样本特征最近的K个样本，预测为里面有最多类别数的类别。而KNN做回归时，一般是选择平均法，即最近的K个样本的样本输出的平均值作为回归预测值。

KNN是通过测量不同特征值之间的距离进行分类。

思想：如果一个样本在特征空间中的k个最邻近的样本中的大多数属于某一个类别，则该样本也划分为这个类别。KNN算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

KNN工作原理：

1）假设有一个带有标签的样本数据集（训练样本集），其中包含每条数据与所属分类的对应关系。
2）输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较。
3）计算新数据与样本数据集中每条数据的距离。
4）对求得的所有距离进行排序（从小到大，越小表示越相似）。
5）取前 k （k 一般小于等于 20 ）个样本数据对应的分类标签。
6）求 k 个数据中出现次数最多的分类标签作为新数据的分类。

算法流程：

1）计算测试数据与各个训练数据之间的距离；
2）按照距离的递增关系进行排序；
3）选取距离最小的K个点；
4）确定前K个点所在类别的出现频率；
5）返回前K个点中出现频率最高的类别作为测试数据的预测分类

如下图：我们要确定绿点属于哪个颜色（红色或者蓝色），要做的就是选出距离目标点距离最近的k个点，看这k个点的大多数颜色是什么颜色。当k取3的时候，我们可以看出距离最近的三个，分别是红色、红色、蓝色，因此得到目标点为红色。
在这里插入图片描述

二、KNN的三要素

k值的选择、距离度量及分类决策规则是k近邻法的三个基本要素。根据选择的距离度量（如曼哈顿距离或欧氏距离），可计算测试实例与训练集中的每个实例点的距离，根据k值选择k个最近邻点，最后根据分类决策规则将测试实例分类。

2.1 k值的选择

对于k值的选择，没有一个固定的经验，一般根据样本的分布，选择一个较小的值，可以通过交叉验证选择一个合适的k值。

选择较小的k值，就相当于用较小的领域中的训练实例进行预测，训练误差会减小，只有与输入实例较近或相似的训练实例才会对预测结果起作用，与此同时带来的问题是泛化误差会增大，换句话说，K值的减小就意味着整体模型变得复杂，容易发生过拟合；

选择较大的k值，就相当于用较大领域中的训练实例进行预测，其优点是可以减少泛化误差，但缺点是训练误差会增大。这时候，与输入实例较远（不相似的）训练实例也会对预测器作用，使预测发生错误，且K值的增大就意味着整体的模型变得简单。

一个极端是k等于样本数m，则完全没有分类，此时无论输入实例是什么，都只是简单的预测它属于在训练实例中最多的类，模型过于简单。

2.2 距离度量

特征空间中的两个实例点的距离是两个实例点相似程度的反映。K近邻法的特征空间一般是n维实数向量空间 $R_n$ 。使用的距离是欧氏距离，但也可以是其他距离，如更一般的 $L_p$ 距离或Minkowski距离。

设特征空间X是n维实数向量空间 $R_n，x_i,x_j \in X,x_i=(x_i^{(1)},x_i^{(2)},…，x_i^{(n)})^T，x_j=(x_j^{(1)},x_j^{(2)},…，x_j^{(n)})^T$ ， $x_i,x_j$ 的 $L_p$ 距离定义为：

最低0.47元/天解锁文章

博客等级

码龄9年

91
原创

393
点赞

2926
收藏

223
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: 数据挖掘150道笔试题

下一篇：: 八大排序算法详细讲解（附C++和python程序）

最新评论

支持向量机SVM、支持向量回归SVR详细推导
哥先让你三行代码: 质量很高的博文，有自己的理解，这才是CSDN应该发扬的博客
生成对抗网络GAN详细推导
adequate_: 想问一下在GAN的训练这一部分中，博主写的在更新G的时候，不要更新G太多是为什么呀？有点没看懂前面的解释
支持向量机SVM、支持向量回归SVR详细推导
weixin_44292399: 写的真的是太好了，从SVM到核再到SVR都十分系统，并且循序渐进
产品经理之产品类题目
CSDN-Ada助手: 非常感谢CSDN博主的分享，产品经理的产品类题目确实是一个重要的话题。我觉得下一篇你可以写一篇关于“用户需求分析”方面的技术博文，介绍如何通过市场调研、用户访谈等方式深入了解用户需求，从而更好地制定产品策略。这样的技术文章对其他用户也会非常有帮助，相信会有更多读者受益。期待你的下一篇精彩分享！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
推荐系统评测
百里晨露: 请问博主这条博客有论文支撑吗

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。