机器学习之K近邻(KNN)算法

最新推荐文章于 2024-06-26 16:08:27 发布

谓之小一

最新推荐文章于 2024-06-26 16:08:27 发布

阅读量3.4k

点赞数 2

分类专栏：机器学习机器学习文章标签：机器学习 K近邻 KNN KD树球树

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/XiaoYi_Eric/article/details/80302944

版权

本文深入介绍了K近邻(KNN)算法，包括其分类和回归的应用，KNN的基本流程，以及如何选择合适的K值。接着，文章详细讨论了KD树和球树两种优化方法，解释了它们的构建、搜索最近邻和预测过程，旨在提高KNN的效率。最后，文中探讨了KNN算法的优缺点，并提供了Sklearn库的实现示例。

摘要由CSDN通过智能技术生成

1.KNN简介

K近邻(K-Nearest Neighbors, KNN)算法既可处理分类问题，也可处理回归问题，其中分类和回归的主要区别在于最后做预测时的决策方式不同。KNN做分类预测时一般采用多数表决法，即训练集里和预测样本特征最近的K个样本，预测结果为里面有最多类别数的类别。KNN做回归预测时一般采用平均法，预测结果为最近的K个样本数据的平均值。其中KNN分类方法的思想对回归方法同样适用，因此本文主要讲解KNN分类问题，下面我们通过一个简单例子来了解下KNN算法流程。

如下图所示，我们想要知道绿色点要被决定赋予哪个类，是红色三角形还是蓝色正方形？我们利用KNN思想，如果假设K=3，选取三个距离最近的类别点，由于红色三角形所占比例为2/3，因此绿色点被赋予红色三角形类别。如果假设K=5，由于蓝色正方形所占比例为3/5，因此绿色点被赋予蓝色正方形类别。

从上面实例，我们可以总结下KNN算法过程

计算测试数据与各个训练数据之间的距离。
按照距离的递增关系进行排序，选取距离最小的K个点。
确定前K个点所在类别的出现频率，返回前K个点中出现频率最高的类别作为测试数据的预测分类。

从KNN算法流程中，我们也能够看出KNN算法三个重要特征，即距离度量方式、K值的选取和分类决策规则。

距离度量方式： KNN算法常用欧式距离度量方式，当然我们也可以采用其他距离度量方式，比如曼哈顿距离，相应公式如下所示。

$D(x,y)=\sqrt{(x_1-y_1)^2+(x_2-y_2)^2+...+(x_n-y_n)^2}=\sqrt{\sum_{i=1}^{n}(x_i-y_i)^2}$

最低0.47元/天解锁文章

关注

2
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。