聚类的性能度量和距离计算_哔哩哔哩聚类性能度量-CSDN博客

本文链接：https://blog.csdn.net/qq_58152854/article/details/124282449

聚类也许是机器学习中"新算法"出现最多,最快的领域,一个重要原因是聚类不存在客观标准;给定数据集，总能从某个角度找到以往算法未覆盖的某种标准从而设计出新算法，相对于机器学习其他分支来说，聚类的知识还不够系统化，但是聚类技术本身在现实任务中非常重要。

文章目录

一，聚类任务
二、性能度量（*）
三，距离计算（*）

如果基本了解聚类的概念就可以直接看性能度量和距离计算了，

一，聚类任务

聚类是一类“无监督学习”(unsupervised learning),常见的无监督学习任务还有密度估计（density estimation）,异常检测（anomaly detection）等，无监督学习就是对训练样本的标记信息是未知的，目标是通过对无标记样本的学习来揭示数据的内在性质及规律，为了进一步的数据分析提供基础，此类学习任务中研究最多，应用最广的是“聚类任务”（clustering）。

聚类试图将数据集中的样本划分为若干个通常是互不相交的子集，每个子集叫做一个“簇”（cluster），通过这样的划分，每个簇可能都有一些潜在的概念（类别），比如对于西瓜来说像瓜的颜色，大小，本地瓜或者外地瓜。但是这些东西在聚类操作前我们是不知道的，聚类过程只能自动的形成簇结构，簇所代表的属性还要我们来定义。

形式化的说，假定样本集 $D=\{x_1,x_2...,x_m\}$ 包含 $m$ 个无标记样本，每个样本 $x_i=\{x_{i1},x_{i2}...,x_{in}\}$ 是一个 $n$ 为特征向量，则聚类算法将样本 $D$ 划分为 $k$ 个不相交的簇 $\{C_l|l=1,2,\cdots,k\}$ ，其中
$C_{l'}\bigcap_{l'\neq l}C_l= \emptyset$ 且 $D=\bigcup^k_{l=1}C_l$ .相应的，我们用 $\lambda_i\in\{1,2,\cdots,k\}$ 表示样本 $x_j$ 的“簇标记”（cluster label），即 $x_j\in C_{\lambda j}$ .于是，聚类的结果可用包含 $m$ 个元素的簇标记向量
$\lambda_i=\{\lambda_1;\lambda_2,\cdots,\lambda_k\}$ 表示。

聚类既能作为一个单独过程，用于寻找数据内在的分布结构，也可以作为分类等其他学习任务的前驱过程。例如，在一些商业中需对新用户的类型进行判别，但定义“用户类型”对商家来说可能不太容易，此时往往可以先对用户数据进行聚类，根据聚类结果将每个簇定义为一个类，然后再基于这些类训练分类模型，用于判别新用户的类型。

基于不同的学习策略，人们设计出多种类型的聚类算法。我们就先对两个基本问题进行讨论——性能度量和距离计算。

二、性能度量（*）

聚类性能度量亦称聚类“有效性指标”（validity index），与监督学习中的性能度量非常相似，对聚类结果，我们需通过某种性能度量来评估其好坏；另一方面，若明确了最终将要使用的性能度量，则可以直接将其作为聚类过程的优化目标，从而更好地得到符合要求的聚类结果。

聚类是样本集 $D$ 划分为若干个互不相交的子集，即样本簇。那么，什么样的聚类结果比较好呢？直观上看，我们希望“物以类聚”,即同一簇的样本尽可能彼此相似，不同簇的样本尽可能不同，换言之，聚类结果的“簇内相似度”（intra-cluster simliarity）高且“簇间相似度”(inter-cluster simliarity)低。

聚类性能度量大致有两种，一类是将聚类结果于某个“参考模型”（reference mode）进行比较，称为“外部指标”（external index）；另一类是直接考察聚类结果而不利用任何参考模型，称为“内部指标”（internal index）.

对数据集 $D=\{x_1,x_2...,x_m\}$ ，假定通过聚类给出的簇划分为 $C=\{C_1,C_2...,C_k\}$ ,参考模型给出的簇划分为 $C^*=\{C^*_1,C^*_2...,C^*_s\}$ ,相应地，令 $\lambda$ 与 $\lambda^*$ 分别表示 $C$ 和 $C^*$ 对应的簇标记向量，我们将样本两两配对考虑，定义
$a=|SS|,SS=\{(x_i,x_j)|\lambda_i=\lambda_j,\lambda^*_i=\lambda^*_j,i<j\},(1)$
$b=|SD|,SD=\{(x_i,x_j)|\lambda_i=\lambda_j,\lambda^*_i\neq\lambda^*_j,i<j\},(2)$
$c=|DS|,DS=\{(x_i,x_j)|\lambda_i\neq\lambda_j,\lambda^*_i=\lambda^*_j,i<j\},(3)$
$d=|DD|,DD=\{(x_i,x_j)|\lambda_i\neq\lambda_j,\lambda^*_i\neq\lambda^*_j,i<j\},(4)$

其中集合 $S S$ 包含了在 $C$ 中隶属于相同簇且在 $C^*$ 中也隶属于相同簇的样本对，集合 $S D$ 包含了在 $C$ 中隶属于相同簇但在 $C^*$ 中隶属于不同簇的样本对,…由于每个样本对对 $x_i,x_j)(i<j)$ 仅能出现在一个集合中，因此有 $a + b + c + d = m (m - 1) / 2$ 成立。

基于等式1到4可以导出下面这些常用的聚类性能度量外部指标：

Jaccard系数（Jaccard Coeffcient,简称JC）
$JC=\frac{a}{a+b+c}.(5)$
FM指数（Fowlkes and Mallows Index,FMI）
$FMI=\sqrt{\frac{a}{a+b}\cdot\frac{a}{a+c}} (6)$
Rand指数（Rand index,RI）
$RI=\frac{2(a+b)}{m(m-1)}.(7)$

显然，上述性能度量的结果值均在区间[0,1]，值越大越好。
考虑聚类结果的簇划分 $C=\{C_1,C_2...,C_k\}$ ，定义
$avg(C)=\frac{2}{|C|(|C|-1)}\sum_{1\leq i<j\leq|C|}dist(x_i,x_j), \ (8)$

$diam(C)=max_{1\leq i<j\leq|C|}\ dist(x_i,x_j), (9)$
$d_{min}(C_i,C_j)=min_{x_i\in C_i,x_j\in C_j} \ dist(x_i,x_j), (10)$

$d_{cen}(C_i,C_j)=dist(\mu_i,\mu_j), (11)$
其中， $dist(\cdot,\cdot)$ 用于计算两个样本之间的距离(距离越大则样本的相似度越低)； $\mu$ 代表簇 $C$ 的中心点 $\mu=\frac{1}{|C|}\sum_{1\leq i\leq|C|}x_i$ ，显然， $a v g (C)$ 对应于簇 $C$ 内样本间的平均距离， $d i a m (C)$ 对应于簇 $C$ 内样本间的最远距离， $d_{min}(C_i,C_j)$ 对应于簇 $C_i$ 与簇 $C_j$ 最近样本间的距离， $d_{cen}(C_i,C_j)$ 对应于簇 $C_i$ 与簇 $C_j$ 中心点的距离。

基于8~11可以导出下面这些常用的性能度量内部指标：

DB指数（Davies-Bouldin Index，DBI）
$DBI=\frac{1}{k}\sum^{k}_{i=1}max_{j\neq i}(\frac{avg(C_i)+avg(C_j)}{d_{cen}(\mu_i,\mu_j)})(12)$
Duun指数（Duun ）
$DI=min_{1\leq i\leq k}\{min_{j\neq i}(\frac{d_{min}(\mu_i,\mu_j)}{max_{1\leq i\leq k}diam(C_l)}）\}(13)$

显然，DBI的值越小越好，而DI则相反，值越大越好。

三，距离计算（*）

对函数 $dist(\cdot,\cdot)$ ，若它是一个“距离度量”（distance measure），则需满足一些基本性质：
$非负性：dist(x_i,x_j)\geq0 (14)$
$同一性：dist(x_i,x_j)=0 当且仅当x_i=x_j (15)$
$对称性：dist(x_i,x_j)=dist(x_j,x_i) (16)$
$直递性(三角不等式)：dist(x_i,x_j)\leq dist(x_i,x_k)+dist(x_k,x_j) (17)$

给定样本 $x_i=\{x_{i1},x_{i2}...,x_{in}\}$ 与$x_j={x_{j1},x_ji2}…,x_{jn}},最常用的是“闵可夫斯基距离”（Minkowski distance）
$dist_mk(x_i,x_j)=(\sum^n_{u=1}|x_{iu}-x_{ju}|^p)^\frac{1}{p}(18)$
对于 $p$ 大于等于1，式（18）显然满足（14~17）d的距离度量基本性质，
$p = 2$ 时，闵可夫斯基距离即欧式距离（Euclidean distance）
$dist_{ed}(x_i,x_j)=||x_i,x_j||_2=\sqrt{(\sum^n_{u=1}|x_{iu}-x_{ju}|^2)}$

$p = 1$ 时，闵可夫斯基距离即曼哈顿距离（Manhattan distance）也称街区距离（city block distance）
$dist_{man}(x_i,x_j)=||x_i,x_j||_1=\sum^n_{u=1}|x_{iu}-x_{ju}|$

$p$ 接近于 $\infin$ 时，闵可夫斯基距离是切比雪夫距离。

我们常将属性划分为“连续属性”(continuous attribute)和“离散属性”（categorical attribute）,前者在定义域上有无穷多个取值，后者在定义域上是有限个取值，然而，在讨论距离计算时，属性是否定义了”序“关系更为重要，例如定义域为{1，2，3}的离散属性与连续属性的性质更接近一些，能够直接在属性上面计算距离，这样的属性通常我们称为有序，而{飞机，火车，巴士}这种我们称为无序，而闵可夫斯基距离适用于有序属性。

对于无序属性可以采用VDM(Value difference metric)，令 $m_{u,a}$ 表示属性 $u$ 上取值为 $a$ 的样本数， $m_{u,a，i}$ 表示在第 $i$ 个样本簇中属性 $u$ 上取值为 $a$ 的样本数， $k$ 为样本簇数，则属性 $u$ 上两个离散值 $a$ 与 $b$ 之间的VDM距离为
在这里插入图片描述
于是，将闵可夫斯基距离和VDM结合即可处理混合属性，假定有 $n_c$ 个有序属性， $n-n_{c}$ 个无序属性，不失一般性，令有序属性排列在无序属性之前，则有

当样本空间中不同属性的重要性不同时，可使用”加权距离“（weighted distance）以加权闵可夫斯基距离为例：
在这里插入图片描述
其中权重 $w_i\geq0(i=0,1,\cdots,n)$ 表征不同属性的重要性，通常 $\sum^n_{i=1}w_i=1$ .

需要注意的是，通常我们是基于某种形式的距离来定义”相似度度量“（similarity measure），距离越大，相似度越小。然而，用于相似度度量的距离未必一定要满足距离度量的所有基本性质，尤其是直递性。例如：
在这里插入图片描述
这样的距离叫做”非度量距离“（non-metric distance）。本篇介绍的距离计算式都是事先定义好的，但在不少现实任务中给，有必要基于数据样本来确定核时的距离计算式，这可以通过”距离度量学习“（distance metric learning）来实现。