k近邻算法

最新推荐文章于 2024-11-14 21:21:03 发布

是个程序汪

最新推荐文章于 2024-11-14 21:21:03 发布

阅读量321

点赞数

分类专栏：算法文章标签：近邻算法算法聚类

本文链接：https://blog.csdn.net/rygygv/article/details/125124138

版权

算法专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文深入探讨k近邻(k-NN)算法，阐述其基本概念、分类原理及实际应用。通过示例解释了k值选择对分类结果的影响，指出k值过小可能导致过拟合，而合适的k值范围对于模型性能至关重要。同时，文章提及距离度量通常使用欧氏距离，并提供了相关参考资料。

摘要由CSDN通过智能技术生成

https://blog.csdn.net/weixin_46847902/article/details/124522824

层次分析聚类树形图

层次

k近邻算法

k近邻算法的基本概念，原理以及应用

k近邻算法是一种基本分类和回归方法。本篇文章只讨论分类问题的k近邻法。

K近邻算法，即是给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的K个实例，这K个实例的多数属于某个类，就把该输入实例分类到这个类中。（这就类似于现实生活中少数服从多数的思想）根据这个说法，咱们来看下引自维基百科上的一幅图：

在这里插入图片描述
一张几乎所有讲解都有的图

如上图所示，有两类不同的样本数据，分别用蓝色的小正方形和红色的小三角形表示，而图正中间的那个绿色的圆所标示的数据则是待分类的数据。这也就是我们的目的，来了一个新的数据点，我要得到它的类别是什么？好的，下面我们根据k近邻的思想来给绿色圆点进行分类。
如果K=3，绿色圆点的最邻近的3个点是2个红色小三角形和1个蓝色小正方形，少数从属于多数，基于统计的方法，判定绿色的这个待分类点属于红色的三角形一类。
如果K=5，绿色圆点的最邻近的5个邻居是2个红色三角形和3个蓝色的正方形，还是少数从属于多数，基于统计的方法，判定绿色的这个待分类点属于蓝色的正方形一类。
从上面例子我们可以看出，k近邻的算法思想非常的简单，也非常的容易理解，那么我们是不是就到此结束了，该算法的原理我们也已经懂了，也知道怎么给新来的点如何进行归类，只要找到离它最近的k个实例，哪个类别最多即可。

哈哈，没有这么简单啦，算法的核心思想确实是这样，但是要想一个算法在实际应用中work，需要注意的不少额~比如k怎么确定的，k为多少效果最好呢？所谓的最近邻又是如何来判断给定呢？哈哈，不要急，下面会一一讲解！

如果我们选取较小的k值，那么就会意味着我们的整体模型会变得复杂，容易发生过拟合！恩_{结论说完了，太抽象了吧你，不上图讲解号称通俗讲解的都是流氓}好吧，那我就上图来讲解

假设我们选取k=1这个极端情况，怎么就使得模型变得复杂，又容易过拟合了呢？

假设我们有训练数据和待分类点如下图：
在这里插入图片描述
上图中有俩类，一个是黑色的圆点，一个是蓝色的长方形，现在我们的待分类点是红色的五边形。