【概要】k近邻

最新推荐文章于 2025-04-24 20:39:48 发布

彬彬侠

最新推荐文章于 2025-04-24 20:39:48 发布

阅读量482

点赞数 22

分类专栏：机器学习(概要) 文章标签： k近邻 KNN 分类回归监督学习机器学习算法

本文链接：https://blog.csdn.net/u013172930/article/details/144672943

版权

30 篇文章

订阅专栏

K近邻算法（K-Nearest Neighbors, KNN）是一种基于实例的监督学习算法，用于分类和回归任务。它的基本思想是：对于一个待分类或待预测的数据点，通过找到其在特征空间中最接近的 $K$ 个邻居，利用这些邻居的标签来决定该数据点的类别或值。

工作原理：
- 分类任务：对于一个新的样本，KNN算法会计算它与训练集中所有样本的距离（通常使用欧几里得距离），然后选择距离最小的 $K$ 个邻居。根据这 $K$ 个邻居所属的类别，通过多数投票（majority voting）来决定新样本的类别。
- 回归任务：KNN回归与分类类似，不同的是，预测值是 $K$ 个邻居的目标变量的平均值或加权平均值。
距离度量：
- KNN通常使用欧几里得距离来衡量样本之间的相似度：
  $\text{Euclidean distance} = \sqrt{\sum_{i=1}^{n} (x_i - y_i)^2}$
  其中， $x_i$ 和 $y_i$ 是两个样本的特征值， $n$ 是特征的维度。
- 也可以使用其他距离度量，如曼哈顿距离、余弦相似度等，具体取决于问题的需求。
超参数：K值：
- $K$ 是KNN算法中的关键超参数，表示在做出预测时考虑的邻居数量。小的 $K$ 值可能导致模型对噪声过于敏感，产生过拟合；大的 $K$ 值可能使得模型过于平滑，产生欠拟合。因此，选择合适的 $K$ 值至关重要。
加权KNN：
- 在标准KNN中，每个邻居的贡献是相同的，但在加权KNN中，距离较近的邻居会对预测结果产生更大的影响，通常使用距离的倒数作为权重。

计算距离：对于每个待预测样本，计算其与训练集所有样本的距离。
选取最近邻居：根据计算得到的距离，选出距离最近的 $K$ 个邻居。
做出预测：
- 对于分类问题，采用多数投票的方式来决定类别。
- 对于回归问题，取这 $K$ 个邻居目标值的平均值或加权平均值作为预测结果。

优点：
- 简单直观：KNN算法非常简单，易于理解和实现。
- 无训练过程：KNN属于懒惰学习算法，不需要显式的训练阶段，直接在测试阶段进行计算。
- 适应性强：KNN可以处理多类别分类问题，也可以进行回归任务。
缺点：
- 计算开销大：KNN需要计算每个测试样本与所有训练样本的距离，计算复杂度较高，尤其在训练集较大的时候，效率较低。
- 高维数据问题：在高维数据中，KNN的性能会受到影响，因为维度的增加会导致维度灾难（即特征空间过于稀疏）。
- 对噪声敏感：KNN对数据中的噪声和异常值比较敏感，因为其预测结果完全依赖于邻居的标签。