KNN

最新推荐文章于 2022-05-19 17:33:26 发布

蓝鲸123

最新推荐文章于 2022-05-19 17:33:26 发布

阅读量3.1k

点赞数

分类专栏：机器学习文章标签： KNN 机器学习

本文链接：https://blog.csdn.net/th_num/article/details/51565053

版权

机器学习专栏收录该内容

41 篇文章 4 订阅

订阅专栏

KNN

KNN方法虽然从原理上也依赖于极限定理，但在类别决策时，只与极少量的相邻样本有关。由于KNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，KNN方法较其他方法更为适合。

KNN复杂度分析

kNN算法本身简单有效，它是一种lazy-learning算法，分类器不需要使用训练集进行训练，训练时间复杂度为0。kNN分类的计算复杂度和训练集中的文档数目成正比，也就是说，如果训练集中文档总数为n，那么kNN的分类时间复杂度为O(n)。

KNN的使用

KNN算法不仅可以用于分类，还可以用于回归。通过找出一个样本的k个最近邻居，将这些邻居的属性的平均值赋给该样本，就可以得到该样本的属性。更有用的方法是将不同距离的邻居对该样本产生的影响给予不同的权值(weight)，如权值与距离成正比（组合函数）。
算法的优点：

1.简单，易于理解，易于实现，无需估计参数，无需训练
2.适合对稀有事件进行分类（例如当流失率很低时，比如低于0.5%，构造流失预测模型）
3.特别适合于多分类问题(multi-modal,对象具有多个类别标签)，例如根据基因特征来判断其功能分类，kNN比SVM的表现要好

算法的不足：

1.当样本不平衡时，如一个类的样本容量很大，而其他类样本容量很小时，有可能导致当输入一个新样本时，该样本的K个邻居中大容量类的样本占多数。该算法只计算“最近的”邻居样本，某一类的样本数量很大，那么或者这类样本并不接近目标样本，或者这类样本很靠近目标样本。无论怎样，数量并不能影响运行结果。可以采用权值的方法（和该样本距离小的邻居权值大）来改进。
2.计算量较大，因为对每一个待分类的文本都要计算它到全体已知样本的距离，才能求得它的K个最近邻点。目前常用的解决方法是事先对已知样本点进行剪辑，事先去除对分类作用不大的样本。该算法比较适用于样本容量比较大的类域的自动分类，而那些样本容量较小的类域采用这种算法比较容易产生误分。
3. 懒惰算法，对测试样本分类时的计算量大，内存开销大，评分慢
4.可解释性较差，无法给出决策树那样的规则。