Machine Learning-经典模型之KNN

最新推荐文章于 2024-03-27 22:36:52 发布

Pysamlam

最新推荐文章于 2024-03-27 22:36:52 发布

阅读量277

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Pysamlam/article/details/100975699

版权

接下来的几篇文章会介绍一下机器学习的经典模型，本文只是做一些简单的入门级介绍，具体的原理还需大家自己去找相关资料来读一读，今天时间有限就说一下KNN算法。

k-nearest neighbors algorithm (k-NN) is anon-parametric method used for classification and regression. The input consists of the k closest training examples in the feature space

存在一个样本数据集合，也称为训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一数据与所属分类对应的关系。
输入没有标签的数据后，将新数据中的每个特征与样本集中数据对应的特征进行比较，提取出样本集中特征最相似数据（最近邻）的分类标签。
一般来说，我们只选择样本数据集中前k个最相似的数据，这就是k近邻算法中k的出处，通常k是不大于20的整数。
最后选择k个最相似数据中出现次数最多的分类作为新数据的分类。

640?wx_fmt=png

在测量距离时，有涉及到3个“距离”的概念，我们KNN一般会用欧式距离作为衡量的距离。

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

KNN算法描述：

1、初始化训练集和类别；

2、计算测试集样本与训练集样本的欧氏距离；

3、根据欧氏距离大小对训练集样本进行升序排序；

4、选取欧式距离最小的前K个训练样本，统计其在各类别中的频率；

5、返回频率最大的类别，即测试集样本属于该类别。

KNN的优缺点：

主要优点

1）理论成熟，思想简单，既可以用来做分类也可以用来做回归

2）可用于非线性分类

3）训练时间复杂度比支持向量机之类的算法低，仅为O(n)

4）和朴素贝叶斯之类的算法比，对数据没有假设，准确度高，对异常点不敏感

5）由于KNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，KNN方法较其他方法更为适合

6）该算法比较适用于样本容量比较大的类域的自动分类，而那些样本容量较小的类域采用这种算法比较容易产生误分

主要缺点

1）计算量大，尤其是特征数非常多的时候

2）样本不平衡的时候，对稀有类别的预测准确率低

3）KD树，球树之类的模型建立需要大量的内

4）使用懒散学习方法，基本上不学习，导致预测时速度比起逻辑回归之类的算法慢

5）相比决策树模型，KNN模型可解释性不强

—End—

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。