KNN（k-NearestNeighbor）简介

最新推荐文章于 2023-03-07 18:21:18 发布

qq_33231969

最新推荐文章于 2023-03-07 18:21:18 发布

阅读量441

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33231969/article/details/83657329

版权

1、 KNN算法的基本思想：

KNN算法属于有监督的分类算法，其算法的核心思想是选取一K值，计算训练样本和某个样本之间的距离并从小到大进行排列（计算距离用欧式距离、曼哈顿距离。），在排序好的样本中学区K个样本，其中K个样本总所占比例最大的样本类作为带分类的样本的类别。

2、KNN算法中的一些细节

2.1KNN中K值的选取

@K值较大可以减少学习的估计误差，但是学习的近似误差会增大，与输入实例较远的训练实例也会对预测起作用，使预测发生错误，K值增大模型的复杂度会下降。

@在应用中，K值一般取一个比较小的值，通常采用交叉验证法来来选取最优的K值。

@KNN中的K值选取对分类的结果影响至关重要，K值选取的太小，模型太复杂。K值选取的太大，导致分类模糊。K值的选取一般用Cross Validation（交叉验证）的方法较多。

@K值的选取一般不超过20。

2.1样本的距离的计算

2.1.1欧式距离：

欧式距离为空间之间x，y之间的距离：

2.1.2曼哈顿距离：

3、KNN算法的流程

在训练集中数据和标签已知的情况下，输入测试数据，将测试数据的特征与训练集中对应的特征进行相互比较，找到训练集中与之最为相似（相似，不一定相等。）的前K个数据，则该测试数据对应的类别就是K个数据中出现次数最多的那个分类，其算法的描述为：

@计算测试数据与各个训练数据之间的距离；

@按照距离的递增关系进行排序；

@选取距离最小的K个点；

@确定前K个点所在类别的出现频率；

@返回前K个点中出现频率最高的类别作为测试数据的预测分类。

4、简单图像解释KNN算法

图中绿色样本为待分类的样本，当K 取值为3时，绿色样本被分类为红色样本类；当K值取5时，绿色样本被分类为蓝色样本类。K值的选取对算法的分类效果有很直接的影响。

5、KNN算法的优缺点：

5.1、优点

@原理易于理解，有成熟的理论作为支撑；

@可以用来做分类和预测；

@数据类型要求较低（数值型数据和离散型数据）；

@对异常值不敏感。

5.2、缺点：

@训练样本中样本中比例不平衡导致分类结果偏向于样本较多的一类；

@不适用于较大的样本（计算量大）和较小的样本分类（产生错误分类）。

@最大的缺点是无法给出数据的内在含义。

6、参考文献

https://blog.csdn.net/liqiming100/article/details/77851226

https://www.cnblogs.com/ybjourney/p/4702562.html

https://blog.csdn.net/ch1209498273/article/details/78440276

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
KNN（k-NearestNeighbor）简介

1、 KNN算法的基本思想： KNN算法属于有监督的分类算法，其算法的核心思想是选取一K值，计算训练样本和某个样本之间的距离并从小到大进行排列（计算距离用欧式距离、曼哈顿距离。），在排序好的样本中学区K个样本，其中K个样本总所占比例最大的样本类作为带分类的样本的类别。2、KNN算法中的一些细节 2.1KNN中K值的选取 @K值较大可以减少学习的估计误差，但是...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。