聚类之性能度量详解

最新推荐文章于 2024-08-27 20:46:42 发布

汪先森-Young

最新推荐文章于 2024-08-27 20:46:42 发布

阅读量2k

点赞数

分类专栏：聚类详细讲解文章标签：机器学习

本文链接：https://blog.csdn.net/FAICULTY/article/details/79288494

版权

聚类详细讲解专栏收录该内容

7 篇文章 1 订阅

订阅专栏

概念简述

聚类是什么呢？我们都听说过“物以类聚”，即把“志同道合”的数据分到一起归为一类，不同类之间在”志向“上具有较大分歧。举个栗子，茫茫人生中，我们普通大众会被God根据缘分进行聚类，缘分好的话，会成为朋友，甚至成为了可以互诉衷肠，”余生请指教“的男女盘友，那缘分不好的应该是一生从未谋面或者一面之缘或者是如《再见前任3》中那样成为了最熟悉的陌生人…好像扯远了。
言归正传，用标准的普通话来说，聚类是将数据集中的样本划分为若干个通常是不相交的子集，每个子集成为一个“簇”，用正规的外星人语言来说，对于样本 $D= \left \{x _{1},x_{2},...,x_{m}\right \}$ 包含 $m$ 个无标记样本，每个样本 $x_{i}=\left \{ x_{i1};x_{i2};...;x_{in}\right \}$ 是一个 $n$ 维特征向量，则聚类算法将样本集 $D$ 划分为 $k$ 个不相交的簇 $\left \{ C_{l}| l=1,2,...,k \right \}$ ，其中 $C_{l^{'}}\cap _{l^{'}\neq l}C_{l}=\varnothing$ 且 $D=\cup _{l=1}^{k}C_{l}$ ，相应地，用 $\lambda _{j}\in \left \{ 1,2,...,k \right \}$ 表示样本 $x_{j}$ 的“簇标记”，即 $x_{j}\in C_{\lambda_{j}}$ 。于是聚类的结果可用包含m个元素的簇标记，记向量 $\lambda = \left ( \lambda _{1};\lambda _{2};...;\lambda _{m} \right )$ 。举个栗子，对于具有 $10$ 个样本的数据集 $D$ ，其中每个样本 $x_{i}$ 含有 $2$ 维特征，分成 $2$ 类的结果如下：
这里写图片描述
聚类通常用来对无标记训练样本的学习来揭示数据内在性质及规律，为进一步的数据分析提供基础，是“无监督学习”中应用最广的研究方法。那么问题来了，如何衡量聚类结果的好坏呢？按照什么样的“缘分”分类呢？官方的话来说聚类有哪些性能度量以及距离计算方法。

性能度量

我们通常按照一个标准来分析聚类之后的结果，简单来说这个标准是“簇内相似度高，簇间相似度低”，下面我们用一堆“指数”，“系数”来数学化引号里面的内容，权当填补那些好奇心强盛的孩纸们…

性能度量分类：

聚类性能度量的主要分为两类，一类是将聚类结果与某个“参考模型”进行比较，成为“外部指标”；另一类是直接考察聚类结果而不用任何参考模型，成为“内部指标”。

外部指标

“外部指标”通常有Jaccard系数(Jaccard Coefficient，简称JC)、FM系数(Fowlkes and Mallows Index，简称FMI)、Rand指数(Rand Index，简称RI)。

JC:
$J C = a a + b + c (1.1)$ $\mathrm{JC}=\frac{a}{a+b+c} \tag{1.1}$
FMI:
$F M I = a a + b \cdot a a + c - - - - - - - - - - - \sqrt (1.2)$ $\mathrm{FMI}=\sqrt{\frac{a}{a+b}\cdot \frac{a}{a+c}} \tag{1.2}$
RI

RI=2(a+d))m(m−1)(1.3)

假设，数据集 D={x1,x2,...,xm} ，经过聚类后得到的簇划分为 C={C1,C2,...,Cs} ，参考模型给出的簇划分 C∗={C∗1,C∗2,...,C∗s} ，相应的，令 λ 和 λ∗ 分别表示与 C 和对应的簇标记向量，于是 a、b、c、d 定义如下：

a=|SS|,SS={(xi,xj)|λi=λj,λ∗i=λ∗j,i<j}(1.4)

b=|SD|,SD={(xi,xj)|λi=λj,λ∗i≠λ∗j,i<j}(1.5)

c=|DS|,DS={(xi,xj)|λi≠λj,λ∗i=λ∗j,i<j}(1.6)

d=|DD|,DD={(xi,xj)|λi≠λj,λ∗i≠λ∗j,i<j}(1.7)

从上述表达式可知，集合 SS 包含了在 C 中隶属于相同簇且在中也隶属于相同簇的样本对，集合 SD 包含了在 C 中隶属于相同簇但在中隶属于不同簇的样本，集合 DS 包含了在 C 中隶属于不同簇但在中隶属于相同簇的样本，集合 DD 包含了在 C 中隶属于不同簇且在中隶属不同簇的样本，由于每个样本对 (xi,xj)(i<j) 仅能出现在一个集合中，因此有 a+b+c+d=m(m−1)/2 成立。显然，上述性能度量的结果值均在 [0,1] 区间，值越大越好。
2.内部指标
常用的内部指标有DB指数(Davies-Bouldin Index，简称DBI)和Dunn指数(Dunn Index，简称DI)。
- DB:
  $D B I = 1 k \sum i = 1 k m a x j \neq i (a v g ( C i ) + a v g ( C j ) d c e n ( μ i , μ j )) (2.1)$ $\mathrm{DBI}=\frac{1}{k}\sum_{i=1}^{k}max_{j\neq i}\left ( \frac{avg\left ( C_{i} \right ) +avg\left ( C_{j} \right )}{d_{cen}\left (\mu _{i} ,\mu _{j}\right )}\right )\tag{2.1}$
- DI:
  $D I = m i n 1 \leq i \leq k {m i n j \neq i (d m i n ( C i , C j ) m a x 1 \leq l \leq k d i a m ( C l ))} (2.2)$ $\mathrm{DI}=min_{1\leq i\leq k}\left \{ min_{j\neq i}\left ( \frac{d_{min}\left ( C_{i} ,C_{j}\right )}{max_{1\leq l\leq k}diam\left ( C_{l} \right )} \right ) \right \}\tag{2.2}$
  其中：
  $a v g (C) = 2 | C | ( | C | - 1 ) \sum 1 \leq i < j \leq | C | d i s t (x i, x j) (2.3)$ $avg\left ( C \right )=\frac{2}{\left | C \right |\left ( \left | C \right |-1 \right )}\sum _{1\leq i< j\leq \left | C \right |}dist\left ( x_{i},x_{j} \right )\tag{2.3}$
  $d i a m (C) = m a x x 1 \leq i < j \leq | C | d i s t (x i, x j) (2.4)$ $diam\left ( C \right )=max_{x_{1}\leq i< j\leq \left | C \right |}dist\left ( x_{i},x_{j} \right )\tag{2.4}$
  $d m i n (C i, C j) = m i n x i \in C i, x j \in C j d i s t (x i, x j) (2.5)$ $d_{min}\left ( C_{i},C_{j}\right )=min_{x_{i}\in C_{i},x_{j}\in C_{j}}dist\left ( x_{i},x_{j} \right )\tag{2.5}$
  $d c e n (C i, C j) = d i s t (μ i, μ j) (2.6)$ $d_{cen}\left ( C_{i},C_{j} \right)=dist\left ( \mu _{i} ,\mu _{j}\right )\tag{2.6}$
  注意： $dist\left ( \cdot,\cdot\right )$ 用于计算两个样本之间的距离； $\mu$ 代表簇 $C$ 的中心点 $\mu =\frac{1}{\left | C \right |}\sum _{1\leq i\leq \left | C \right |}x_{i}$ ， $avg(C)$ 对应于簇 $C$ 内样本间的平均距离， $diam(C)$ 对应于簇内最远距离， $d_{min}(C_{i},C_{j})$ 代表簇 $C_{i}$ 与簇 $C_{j}$ 内最近样本间的距离， $d_{cen}\left ( C_{i},C_{j} \right )$ 代表簇 $C_{i}$ 与簇 $C_{j}$ 中心点的距离。显然 $\mathrm{DBI}$ 的值越小越好，而 $\mathrm{DI}$ 则相反，值越大越好。