KNN算法，K聚类的优缺点

最新推荐文章于 2023-12-22 23:53:27 发布

qq_41732387

最新推荐文章于 2023-12-22 23:53:27 发布

阅读量3.1k

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_41732387/article/details/86541987

版权

KNN算法适用于数值型和标称型数据，优点包括简单易实现，对异常值不敏感，适合多分类问题。缺点是计算量大，K值选择敏感。K均值聚类仅适用于数值型数据，优点是易于实现，但可能收敛到局部最小值，对异常值敏感。确定K值通常采用手肘法等策略。

摘要由CSDN通过智能技术生成

适用数据范围:数值型和标称型（目标变量的结果只在有限目标集中取值，如真与假，标称型目标变量主要用于分类)

优点

① 简单，易于理解，易于实现，无需参数估计，无需训练;
② 对异常值不敏感（个别噪音数据对结果的影响不是很大）;
③ 适合对稀有事件进行分类;
④ 适合于多分类问题(multi-modal,对象具有多个类别标签)，KNN要比SVM表现要好;

缺点

① 对测试样本分类时的计算量大，内存开销大，因为对每一个待分类的文本都要计算它到全体已知样本的距离，才能求得它的K个最近邻点。目前常用的解决方法是事先对已知样本点进行剪辑，事先去除对分类作用不大的样本;
② 可解释性差，无法告诉你哪个变量更重要，无法给出决策树那样的规则;
③ K值的选择：最大的缺点是当样本不平衡时，如一个类的样本容量很大，而其他类样本容量很小时，有可能导致当输入一个新样本时，该样本的K个邻居中大容量类的样本占多数。该算法只计算“最近的”邻居样本，某一类的样本数量很大，那么或者这类样本并不接近目标样本，或者这类样本很靠近目标样本。无论怎样，数量并不能影响运行结果。可以采用权值的方法（和该样本距离小的邻居权值大）来改进;
④ KNN是一种消极学习方法、懒惰算法。

算法步骤：
1、计算已知类别数据集中的点与当前点之间的距离；
2、按照距离递增次序排序；
3、选取与当前点距离最小的k个点；
4、确定k个点所在类别的出现频率；
（K用于选择最近邻的数目，K的选择非常敏感。K值越