K-均值聚类（K-means）

最新推荐文章于 2024-03-20 21:43:02 发布

SongGu1996

最新推荐文章于 2024-03-20 21:43:02 发布

阅读量2.8k

点赞数 4

分类专栏：机器学习文章标签： K均值 K-means 聚类

本文链接：https://blog.csdn.net/SongGu1996/article/details/100739030

版权

机器学习专栏收录该内容

13 篇文章 47 订阅

订阅专栏

基础不牢，地动山摇。

聚类（Clustering）是无监督学习的一种方法，在聚类分析中，我们事先不知道训练样本的类别标签或其他先验知识，唯一的分类依据只有样本的特征。聚类分析的方法为：利用某种相似性度量的方法，将相似的样本归到一个簇中，将不相似的样本归到不同的簇中，由此来实现样本的聚类划分。K-均值聚类（K-means）是聚类分析中最基础的一种方法，它将样本聚类到K个簇中（即将样本划分成K类），并且每个簇的中心为这个簇中所有样本点的均值向量，所以被称作“K-均值”聚类。

1. K-均值聚类的原理

假设样本集 $\boldsymbol{X}$ 中有个训练样本，每个样本都有个属性（即维特征），那么样本集可以表示为（ $x_{ij}$ 代表第个样本的第维特征）：

$\boldsymbol{X}=\left \{ \boldsymbol{x}_1,\boldsymbol{x}_2,\cdots, \boldsymbol{x}_{N}\right \}=\begin{pmatrix} x_{11} & x_{21}& \cdots& x_{N1}\\ x_{12}& x_{22}& \cdots& x_{N2}\\ \vdots& \vdots& \ddots & \vdots\\ x_{1D}& x_{2D}& \cdots & x_{ND}\end{pmatrix}$

我们不知道样本的类别标签，我们只知道这些样本需要被分为个簇（即类），将这个簇记为： $C=\left \{ C_{1},C_{2},\cdots,C_{K} \right \}$ ，显然，这个簇彼此互斥，且它们的并集即为样本集，即： $C_{1}\cap C_{2}\cap \cdots\cap C_{K}=\varnothing$ ，且 $C_{1}\cup C_{2}\cup \cdots\cup C_{K}=\boldsymbol{X}$ 。将这个簇的中心（即各个簇的样本均值向量）记为 $\left \{ \boldsymbol{\mu }_{1},\boldsymbol{\mu }_{2},\cdots,\boldsymbol{\mu }_{K} \right \}$ ，那么第个簇的中心 $\boldsymbol{\mu }_{i}$ 可以表示为（其中 $\left | C_{i} \right |$ 表示第个簇中样本点的个数）：

$\boldsymbol{\mu }_{i}=\begin{pmatrix} \mu _{i1}\\ \mu _{i2}\\ \vdots\\ \mu _{iD}\end{pmatrix}=\frac{1}{\left | C_{i} \right |}\sum_{\boldsymbol{x}\in C_{i}}\boldsymbol{x}$

① 初始化簇中心

K-均值聚类的第一步是随机地初始化个维向量 $\left \{ \boldsymbol{\mu }_{1},\boldsymbol{\mu }_{2},\cdots,\boldsymbol{\mu }_{K} \right \}$ 作为每个簇的中心，我们可以完全随机地产生这个向量，也可以从样本集 $\boldsymbol{X}$ 中随机地选择个样本作为初始簇中心。

② 计算欧氏距离，划分样本点

计算所有样本点到个簇中心的欧氏距离，记第个样本与第个簇中心的欧氏距离的平方为 $d_{ij}$ ，则：

$d_{ij}=\left \| \boldsymbol{x}_{i}-\boldsymbol{\mu }_{j} \right \|_{2}=(x_{i1}-\mu_{j1})^{2}+(x_{i2}-\mu_{j2})^{2}+\cdots+(x_{iD}-\mu_{jD})^{2}$

显然，每个样本可以得到个欧氏距离，所有样本共可得到 $N\times K$ 个欧氏距离，如下表所示：

针对单个样本点，在该样本点与所有簇中心的个欧氏距离中，选择最小的一个，将这个样本点划入对应的簇。对所有样本点都进行这样的操作，即可将样本点划为类。

③ 更换簇中心

根据上一步的划分结果计算个簇的中心（均值向量），用计算到的簇中心代替之前的。

④ 重复上两步，直至达到停止条件

接下来我们需要做的是，重复②，③两步，不断更新簇中心，直至所有的簇中心都不再变化，即可停止迭代。

2. K-均值聚类的步骤

输入：样本集 $\boldsymbol{X}=\left \{ \boldsymbol{x}_1,\boldsymbol{x}_2,\cdots, \boldsymbol{x}_{N}\right \}$ ；
聚类簇数（类别数）：

步骤①：随机生成个维向量，或者从样本集 $\boldsymbol{X}$ 中随机选择个样本作为初始簇中心 $\left \{ \boldsymbol{\mu }_{1},\boldsymbol{\mu }_{2},\cdots,\boldsymbol{\mu }_{K} \right \}$ ；

步骤②：计算所有样本与个簇中心的欧氏距离，选择最小的距离，将样本划入对应的簇（类别）中；

步骤③：根据上一步的划分结果计算个簇中心，用它代替之前的簇中心；

步骤④：重复步骤②和步骤③，直至所有的簇中心都不再变化，即可停止。

若需要预测新样本，则计算新样本点与最终得到的个簇中心的欧氏距离，选择距离最小的，将新样本点划到对应的类别中。

参考：

《模式识别与智能计算——MATLAB技术实现》杨淑莹张桦著
《图解机器学习》许永伟译
《机器学习》周志华著