周志华机器学习——聚类算法。

big_matster

于 2022-11-07 20:20:37 发布

阅读量513

点赞数

分类专栏：周志华机器学习文章标签：聚类算法

本文链接：https://blog.csdn.net/kuxingseng123/article/details/127735195

版权

周志华机器学习专栏收录该内容

14 篇文章 4 订阅

订阅专栏

聚类算法

聚类算法是一种经典的无监督学习方法，无监督学习的目标是通过对无标记训练样本的学习，发掘和揭示数据集本身的潜在结构与j规律，即不依赖于训练数据集的类标记信息。聚类则试图将数据集的样本划分为若干个互相相交的类簇，从而每个簇对应一个潜在的类别。
聚类直观上来说是将相似的样本聚集在一起，从而形成一个类簇，（Cluster), 那首先的问题是如何度量相似性，这便是距离度量，在生活中，我们说差别小则相似，对应多维样本，每个样本可以对应高维空间中的一个数据点，若它们的距离相近，我们便可以称其为相似，那接着如何来评价聚类结果的好坏呢？这便是性能度量，性能度量为评价聚类结果的好坏提供了一系列有效性指标。

距离度量

谈及距离度量，最熟悉的莫过于欧式距离了，从年头一直用到年尾的距离计算公式，即对应属性之间相减的平方和在开根号，度量距离还有很多其他经典的度量方法，通常它们需要满足以下基本性质：
非负性 $dist(x_i,x_j)>=0;$
同一性 $dist(x_i,x_j) = 0当且仅当x_i = x_j$
对称性 $dist(x_i,x_j) = dist(x_j,x_i)$
直递性 $dist(x_i,x_j)<=dist(x_i,x_k) + dist(x_k,x_j)$ 即三角不等式，两边之和大于第三边。
最常用的距离度量方法是闵可夫斯基距离：
$dist_{mk}(x_i,x_j) = (\sum^n_{u = 1}|x_{iu} - x_{ju}|)^{\frac{1}{p}}$
当 p = 1时，该距离公式可以变为曼哈顿距离：
$dsit_{man}(x_i,x_j) = ||x_i - x_j||_1 = \sum^n_{u = 1}|x_{iu} - x_{ju}|$
当p = 2时，该距离公式都是欧式距离公式，可以表示为：
$dist_{ed}(x_i,x_j) = ||x_i - x_j||_2 = \sqrt{\sum^n_{u =1}|x_{iu} - x_{ju}|^2}$

我们清楚属性划分有两种连续属性和离散属性，（有限个取值），对于连续属性的取值，一般都可以被学习器取用，有时会根据具体的情形做相应的预处理，例如：归一化等，对于离散值的属性，需要做下一步处理：
若属性值之间存在序关系，可以将其转化为连续值：身高属性“高”“中等”“矮”，可转化为 ${1, 0.5, 0}$ 。
若属性间不存在序关系，可以将其转化为向量的形式，例如：性别属性男女：可转化为 ${（1,0），（0,1）}$
在进行距离度量时，容易知道连续属性和存在序关系的离散属性都可以直接参与计算，因为它们都可以反应一种程度，我们称之为有序属性，而对于不存在序关系的离散属性，我们称之为无序属性，显然无序属性再使用闵可夫斯基距离就行不通了。
对于无序属性，我们一般采用VDM进行距离的计算，例如：对于离散属性的两个取值 $a$ 和 $b$ ,定义为：
$VDM_p(a,b) = \sum^k_{i = 1}|\frac{m_{u,a,i}}{m_{u,a}} - \frac{m_{u,b,i}}{m_{u,b}}|^p$
于是在计算两个样本之间的距离时，我们可以将闵可夫斯基距离和VDM混合在一起进行计算：
在这里插入图片描述
我们定义的距离度量方式是用来计算相似性的，例如下面将要讨论聚类问题，即距离越小，相似性越大，反之，距离越大，相似性越小。这时的距离度量方法并不一定需要满足前面所说的四个基本性质。这种方法称为非度量距离。

性能度量

由于聚类方法不依赖于样本的真实类标，就不能像监督学习的分类那般，通过计算分对错（即精确度和错误率）来评价学习器的好坏或者做为学习过程的优化目标，一般聚类有两类性能优化目标，外部指标和内部指标。

外部指标

即将聚类的结果与单个参考模型的结果进行比较，以参考模型的输出作为标准，来评价聚类好坏，假设聚类给出的结果为 $\lambda$ 参考模型给出的结果为 $\lambda^*$ ,则我们将样本进行两两配对，定义为：
在这里插入图片描述

虽然 $a$ 和 $b$ 代表着聚类结果好坏的正能量， $b$ 和 $c$ 则表示参考结果和聚类结果相矛盾，基于这四个值可以导出以下常用的外R部指标：

Jaccard系数
$\frac{a}{a + b + c}$
FM指数
$\sqrt{\frac{a}{a + b}\times\frac{a}{a+c}}$
Rand指数
$\frac{2(a+d)}{m(m - 1)}$

内部指标

内部指标即不依赖于任何外部模型，直接对聚类结果进行评估，聚类的目的是想将那些相似的样本尽可能聚在一起，不相似的样本尽可能的分开，直观来说：簇内高内聚紧紧抱团，簇间低耦合老死不相往来。定义：
在这里插入图片描述

基于上面这四个距离，可以导出上面常用的评价指标：
在这里插入图片描述

原型聚类

原型聚类即基于原型的聚类，原型表示模板的意思，就是通过参考一个模板向量或模板分布的方式，来完成聚类的过程。常见的K-means聚类便是基于簇中心实现的聚类。

K-means聚类

思想十分简单，首先随机指定类中心，根据样本与类中心的远近划分类簇，接着重新计算类中心，迭代直至收敛。但是其中迭代的过程并不是主观想象得出的，事实上，若将样本的类别看作是隐变量，类中心看作样本的分布参数，这一过程正是通过EM算法的两步骤策略而计算出的，其根本目的是为了最小化平方误差函数E：
$\sum^k_{i = 1}\sum_{x\in C_i}||x - \mu_i||^2_2$

K-means算法的流程如下：
在这里插入图片描述

学习向量量化（LVQ）

LVQ也是基于原型的聚类算法，与K-means不同的是，LVQ使用样本真实类标记辅助聚类，首先LVQ根据样本的类标记，从各类中分别随机选出一个样本作为该类簇的原型，从而组成了一个原型向量组，接着从样本集中随机挑选出一个样本，计算其与原型向量组中每个向量的距离，并选取距离最小的原型向量所在的类簇作为其的划分结果，在与真实类标比较：

若划分结果正确，则对应原型向量向这个样本靠近一些。
若划分结果不正确，则对应原型向量向这个样本远离一些。
LVQ算法流程如下：

高斯混合聚类

现在可以看出K-Means与LVQ都试图以类中心作为原型指导聚类，高斯混合聚类则采用高斯分布来描述原型。现假设每个类簇中的样本都服从一个多维高斯分布，那么空间中的样本可以看作由 $k$ 个多维高斯分布混合而成。

对于多维高斯分布函数，其概率密度函数如下所示：
$\frac{1}{(2\pi)^\frac{n}{2}|\sum|^\frac{1}{2}}e^-\frac{1}{2}(x - \mu)^T\sum^{-1}(x - \mu)$

其中 $\mu$ 为高斯分布, $\sum$ 表示协方差矩阵。可以看出一个多维高斯分布完全有这两个参数所决定，接着定义高斯混合分布为：
在这里插入图片描述

$\alpha$ 称为混合系数，这样空间中样本采集过程可以抽象为：先选择一个类簇（高斯分布），在根据对应的高斯分布的密度函数进行采样，这时候贝叶斯公式，又能大展伸手了：
在这里插入图片描述

此时只需要选择PM最大时的类簇，并将该样本划分到其中，看到这里，很容易发现，这和那个传说中的贝叶斯分类很相似，都是通过贝叶斯公式展开的，然后计算类先验概率和类条件概率，但遗憾的是，这里没有真实的类标信息，对于类条件概率，并不能像贝叶斯分类那样通过最大似然法美好的计算出来，这里的样本可能属于所有类簇，这里的似然函数变为：
在这里插入图片描述

可以看出，简单的最大似然法根本无法求出所有参数，这样PM也就没噶法计算啦，这里就要召唤出之前的EM大算法，首先对高斯分布的参数及混合系数进行随机初始化，计算出各个PM（即γji，第i个样本属于j类），再最大化似然函数（即LL（D）分别对α、u和∑求偏导），对参数进行迭代更新

在这里插入图片描述