近邻算法详解

最新推荐文章于 2024-06-09 13:57:07 发布

周盛欢

最新推荐文章于 2024-06-09 13:57:07 发布

阅读量293

点赞数 4

文章标签：近邻算法

本文链接：https://blog.csdn.net/qq_33449977/article/details/139126535

版权

近邻算法，又叫做K-最近邻算法（K-Nearest Neighbors，简称KNN），是一种非常简单又直观的机器学习方法。想象一下，如果你想知道一个新的水果是苹果还是橘子，你会怎么做？你可能会看看它周围有哪些已知种类的水果，然后说：“哦，这个新水果离那堆苹果更近，那它应该也是个苹果。” 这就是近邻算法的基本思想。

简单来说，近邻算法分四步走：

   1.   收集数据：首先，你需要有一堆已经分类好的数据作为参考，比如一堆已知的苹果和橘子，每种水果都有它的特征描述，比如颜色、大小、形状等。
   2.   测量距离：当有一个新的未知水果出现时，你需要计算这个新水果与所有已知水果之间的“距离”，这里的距离不是物理空间的距离，而是根据它们的特征差异来衡量的。比如颜色用RGB值表示，大小用直径，形状可以用某种形状指标，然后综合这些特征计算一个总的相似度或者距离。
   3.   找邻居：确定了距离之后，你就要找出离这个新水果最近的几个已知水果，这个“最近的几个”就是K值，比如说K=3，那就找最近的三个邻居。
   4.   投票决定：最后，看这三个邻居中哪种水果多，多数的那个水果类别就是新水果的预测类别。如果三个邻居里有两个是苹果，一个橘子，那么我们就认为这个新水果是苹果。

优点：

• 简单易懂：不需要训练过程，直接根据邻居来预测，非常直观。
• 无需模型：不像其他算法需要构建复杂的模型，KNN是基于实例的学习，使用起来灵活。

缺点：

   •   计算量大：尤其是数据集很大的时候，每次预测都需要计算与所有样本的距离，很耗时间。
   •   对异常值敏感：如果数据集中有一些异常样本，它们可能会误导预测结果。
   •   特征选择很重要：不同的特征选择和距离度量方式会直接影响预测效果。
   •   需要大量内存：因为所有的训练数据都要保留下来用于预测。

总的来说，近邻算法就像是在一群朋友中找到和你最像的几个，然后看他们怎么选，你就怎么选。它在很多领域都有应用，比如图像识别、推荐系统等，是一个既实用又容易理解的算法。

周盛欢

关注

4
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
近邻算法详解

想象一下，如果你想知道一个新的水果是苹果还是橘子，你会怎么做？2. 测量距离：当有一个新的未知水果出现时，你需要计算这个新水果与所有已知水果之间的“距离”，这里的距离不是物理空间的距离，而是根据它们的特征差异来衡量的。1. 收集数据：首先，你需要有一堆已经分类好的数据作为参考，比如一堆已知的苹果和橘子，每种水果都有它的特征描述，比如颜色、大小、形状等。3. 找邻居：确定了距离之后，你就要找出离这个新水果最近的几个已知水果，这个“最近的几个”就是K值，比如说K=3，那就找最近的三个邻居。
复制链接

扫一扫