（《机器学习》完整版系列）第9章聚类——9.2 k均值算法、学习向量量化算法（在类标记的指导下进行聚类）

本文链接：https://blog.csdn.net/qiy_icbc/article/details/129294366

在 $k$ 均值算法时，我们是找质心作为簇的代表，同样，这里我们也要找簇的“代表”（称为原型向量）
若样本有类别标记，则可以在类标记的指导下进行聚类

原型聚类

$k$ 均值算法

将每个样本视为一个点，每一个类（簇）有一个质心（借用一个物理概念），把聚类过程视为找质心的过程，质心以 $\boldsymbol{\mu }_i,\, (i=1,2,\cdots,k)$ 表示，其中， $k$ 为超参数，即聚成几类（簇）。

【西瓜书图9.2】的 $k$ 均值算法中实际上是循环做两大步：

已知各类的质心 $\boldsymbol{\mu }_i$ ，依“就近”原则，将 $D$ 中的样本归到各类（第4-8句）；
对各类重新计算质心，更新质心（第9-16句），并不要求其质心一定是 $D$ 中的样本。

当然，为启动该循环需要初始化质心（第1句）。

需要注意的是：虽然用到的公式是固定的（第5句和第10句），但初始化质心具有随机性（第1句），因此，聚类结果可能不唯一。如，三个样本 ${x_1=1,x_2=5,x_3=6\}$ ，当初始化质心为 ${\mu }_1=5,{\mu }_2=6$ 时，则聚类结果为 ${x_1=1,x_2=5\},\{x_3=6\}$ ，训练后质心为 ${\mu }_1=3,{\mu }_2=6$ ；当初始化质心为 ${\mu }_1=1,{\mu }_2=5$ 时，则聚类结果为 ${x_1=1\},\{x_2=5,x_3=6\}$ ,训练后质心为 ${\mu }_1=1,{\mu }_2=5.5$ 。

学习向量量化算法

若样本有类别标记，则可以在类标记的指导下进行聚类，设训练集 $D=\{\boldsymbol{x}_i,y_i\}_{i=1}^m$ ，样本 $\boldsymbol{x}_i$ 聚类的结果为 $\boldsymbol{x}_i\in C_{\lambda _i}$ ，则对每个样本 $\boldsymbol{x}_i$ 有三元组 $(\boldsymbol{x}_i,y_i,{\lambda}_i)$ ，其中， $y_i\in \mathcal{Y}, {\lambda _i}\in \mathcal{Y}$ 。

在 $k$ 均值算法时，我们是找质心作为簇的代表，同样，这里我们也要找簇的“代表”（称为原型向量），假定聚类 $q$ 个簇，各簇的原型向量分别为 $\boldsymbol{p}_1,\boldsymbol{p}_2,\cdots,\boldsymbol{p}_q$ ，其簇标记依次为 $t_1,t_2,\cdots,t_q$ 。

同样地，【西瓜书图9.4】的学习向量量化算法（LVQ）也是循环做两大步，为

已知各类的原型向量 $\boldsymbol{p }_i$ ，依“就近”原则，找到向量 $\boldsymbol{x }_j$ 的“代表” $\boldsymbol{p }_{i^*}$ ，属于 $t_{i^*}$ 簇，形成的三元组为 $(\boldsymbol{x}_j,y_j,t_{i^*})$ （第3-5句）；
针对三元组 $(\boldsymbol{x}_j,y_j,t_{i^*})$ ，若簇标记 $t_{i^*}$ 与类标记 $y_j$ 相同，说明该样本 $\boldsymbol{x}_j$ 支持对应的“代表” $\boldsymbol{p }_{i^*}$ ，让 $\boldsymbol{p }_{i^*}$ 向 $\boldsymbol{x}_j$ 靠拢一步；反之，不支持，则让 $\boldsymbol{p }_{i^*}$ 后退一步，这就是类标记 $y_j$ 的指导作用（第6-11句）。

当然，为启动该循环需要初始化“代表”（第1句），但是它没有给出初始化的具体方法，正因为如此，这就给了我们自由度，例如，为“好瓜”找3个簇，为“坏瓜”找2个簇，在此约束下找5个样本作为初始化“代表”，即【西瓜书图9.5】的初始化，你也可以给出其他约束来求解。

比较 $k$ 均值算法与LVQ算法的循环体，前者用的是“for（所有样本）”，是批量方式，而后者用的是“repeat（单个样本）”，是单个方式：循环体中处理一个样本（第3句）。

LVQ算法实际上学得了一组“代表”点，即原型向量 $\boldsymbol{p}_1,\boldsymbol{p}_2,\cdots,\boldsymbol{p}_q$ ，由此可对样本空间进行剖分（各剖分线为两原型向量的“中垂线（面）”），【西瓜书图9.5】所示，而依该剖分可以对新样本进行簇别预测，当然，它也给出了类别的预测。