k近邻和k-means

马鹤宁

已于 2023-06-05 18:12:19 修改

阅读量9.4k

点赞数 10

分类专栏：机器学习和深度学习之旅文章标签： 1024程序员节机器学习

于 2020-10-24 11:49:02 首次发布

本文链接：https://blog.csdn.net/weixin_42111770/article/details/109256982

版权

机器学习和深度学习之旅专栏收录该内容

84 篇文章

订阅专栏

本文详细介绍了k近邻（KNN）和k-means聚类算法的基本原理和区别。k近邻是一种监督学习的分类算法，而k-means则是无监督学习的聚类方法。k近邻主要依赖于k值选择、距离度量和分类决策规则，常使用的距离度量包括欧式距离、马哈顿距离和切比雪夫距离。k-means算法通过迭代更新聚类中心来划分数据集，直至聚类稳定。两种算法在数据预处理和参数调优上都有其特点和挑战。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

k近邻和k-means，听名称很相似，很容易张冠李戴。其实它们的全名为K近邻分类算法（k-Neighbour，KNN）和K均值聚类算法（K-means clustering algorithm）。

k紧邻是一中基本的分类与回归算法，是监督学习算法，没有明显的训练学习过程。
k-means是聚类算法，是无监督学习算法，有训练步骤。

k近邻

k近邻（k-neareast neighbor）的直观理解就是：给定一个训练数据集 $\left \{ \left ( x_{i}, y_{i} \right ), \cdots, \left ( x_{n}, y_{n} \right ) \right \}$ ，对于新的实例 $x$ ，在训练集中找到与之相邻的k个实例 $N_{k}\left( x\right)$ ，这 $k$ 个实例的多数属于哪一类，就把这个实例分到哪一类中。可知， $k$ 值的选择 ，距离度量 和 分类决策规则 作为k近邻的三要素。
k近邻的分类决策通常会使用多数表决法。新实例 $x$ 的k个最近训练实例点多数属于哪一类别，新实例 $x$ 就属于哪一类别。

k值的选择

$k$ 值是k近邻算法中的超参数。如果 $k$ 值过小，容易发生过拟合，输入实例对与其邻近的实例点很敏感；如果 $k$ 值过大，容易发生欠拟合，与输入实例距离较远的实例点也会参与到预测中，干扰预测。一般情况下，会使用交叉验证的方法取合适的 $k$ 值。

距离度量

我们定义特征空间中的两个实例点的距离反映两个实例点的相似程度。对于k紧邻算法，它的的特征空间一般是 $n$ 维实向量空间 $\mathbb{R}^{n}$ 。假设特征空间为 $\chi$ ，为 $n$ 维实向量空间 $\mathbb{R}^{n}$ ，其中有两点为 $x_{i}, x_{j}$ ，分别表示为 $x_{i} = \left ( x_{i}^{1}, \cdots, x_{i}^{n} \right )^{T}, x_{j} = \left ( x_{j}^{1}, \cdots, x_{j}^{n} \right )^{T}$ 。

$L_{p}$ 定义为：
$L_{p}\left ( x_{i} , x_{j} \right ) = \left ( \sum_{l=1}^{n} \left | x_{i}^{l} - x_{j}^{l} \right |^{p} \right )^{\frac{1}{p}} \qquad \geq 1$
当 $p = 2$ 时，就是我们常见的欧式距离（Euclidean distance）：
$L_{2}\left ( x_{i} , x_{j} \right ) = \sqrt{ \sum_{l=1}^{n} \left | x_{i}^{l} - x_{j}^{l} \right |^{2} }$
当 $p = 1$ 时，被称为马哈顿距离（Manhattan distance）:
$L_{1}\left ( x_{i} , x_{j} \right ) = \sum_{l=1}^{n} \left | x_{i}^{l} - x_{j}^{l} \right |$
当 $p=\infty$ 时，为各个坐标距离的最大值 ：
$L_{\infty}\left ( x_{i} , x_{j} \right ) = max \left | x_{i}^{l} - x_{j}^{l} \right |$

k-means

k-means是一种聚类算法，是无监督学习算法。假设有训练数据 $\left \{ x_{i}, \cdots,x_{n} \right \}$ ，它将训练数据分为k组，每一组是一个簇，随机选择k个实例作为初始的聚类中心点，对于每一个实例，计算它和这k个聚类中心的距离，然后把它分配到与它距离最近的聚类中心所在的簇中去；计算每个簇中所有实例的平均值，作为新的聚类中心点，以此往复，直至聚类中心点不再发生明显变化。