聚类性能评价指标

最新推荐文章于 2024-09-26 13:47:24 发布

一只干巴巴的海绵

最新推荐文章于 2024-09-26 13:47:24 发布

阅读量3k

点赞数 3

分类专栏：机器学习

本文链接：https://blog.csdn.net/Hanx09/article/details/114944756

版权

机器学习专栏收录该内容

26 篇文章

订阅专栏

好的聚类算法一般要求类簇具有高的类内（intra-cluster）相似度和低的（inter-cluster）相似度。

聚类算法有外部（External）评价指标和内部（Internal）评价指标两种，外部评价指标需要借助数据真实情况进行对比分析，内部评价指标不需要其他数据就可以进行指标的评估。

设有 $N$ 个 $p$ 维数据 $X=[x_1,x_2,\cdots,x_N]^T\in\mathbb{R}^{N\times p}$ ，真实数据共有 $R$ 簇 $\{U_1,U_2,\cdots,U_R\}$ ，聚类算法将数据划分为 $J$ 簇 $\{V_1,V_2,\cdots,V_J\}$ 。

Purity

$\frac{1}{N}\sum_{k}\max_{j}|u_k\cap v_j|$

$P u r i t y$ 按照以下思路计算，对聚类算法得到的每一个簇，将其中样本数目最多的真实簇作为该簇的类别，并使用最大的样本数为该簇记分，最后将所有簇之和归一化。

举例来说，x, o , $\Diamond$ 是数据真实的三个类别，聚类算法将这些数据点划分为 $c l u s t e r 1$ ， $c l u s t e r 2$ ， $c l u s t e r 3$ 三类，在 $c l u s t e r 1$ 中 class x 数目最多为 5,在 $c l u s t e r 2$ 中class o 数目最多为 4,在 $c l u s t e r 3$ 中 class $\Diamond$ 数目最多为 3。因此：
$Purity=\frac{1}{17}\times(5+4+3)\approx0.7059$

在这里插入图片描述

$Purity\in[0,1]$ ，越接近1表示聚类结果越好。
该值无法用于权衡聚类质量与簇个数之间的关系。

互信息、标准化互信息、调整互信息

信息熵与列联表

对于标签向量 $U$ ，其信息熵为
$H(U)=-\sum_{i=1}^Rp_i\ln p_i=-\sum_{i=1}^R\frac{|U_i|}{N}\ln \frac{|U_i|}{N}$

其中 $p_i=\frac{|U_i|}{N}$ 表示第 $i$ 簇的数据个数占比。

取矩阵 $M\in\mathbb{R}^{R\times J}$ 为真实标签向量 $U$ 与预测标签向量的列联表，
$M_{ij}=|U_i\cap V_j|$

举例来说，对于 $U = [1, 1, 2, 2], V = [1, 1, 1, 2]$ ，有
$U_1=\{1,2\},\quad U_2=\{3,4\},\quad V_1=\{1,2,3\},\quad V_2=\{4\}$

则
$m_{11}=|\{1,2\}|=2,\quad m_{12}=|\emptyset|=0,\quad m_{21}=|\{3\}|=1,\quad m_{22}=|\{4\}|=1$

列联表为
$M=\left[\begin{matrix} 2&0\\ 1&1\\ \end{matrix}\right]$

互信息(Mutual information, MI)

互信息用来衡量两个数据分布的吻合程度。
$MI(U,V)=H(V)-H(V|U)=\sum_{i=1}^R\sum_{j=1}^Jp_{ij}\ln\frac{p_{ij}}{p_ip_j}$
其中 $p_i=\frac{|U_i|}{N}$ ， $p_j=\frac{|V_j|}{N}$ ， $p_{ij}=\frac{|m_{ij}|}{N}$

$MI\in[0,1]$ ，取值越大，表明聚类结果与真实情况越吻合。

标准化互信息(Normalized Mutual Information, NMI)

$NMI(U,V)=\frac{MI(U,V)}{F(H(U),H(V))}$

其中 $F(x_1,x_2)$ 可以是min函数、max函数，也可以是几何平均 $F(x_1,x_2)=\sqrt{x_1x_2}$ ，也可以是算术平均 $F(x_1,x_2)=\frac{1}{2}(x_1+x_2)$ 。

$NMI\in[0,1]$ ，取值越大，表明聚类结果与真实情况越吻合。

调整互信息(Adjusted Mutual Information, AMI)

MI（互信息指数）和NMI（标准化的互信息指数）不符合簇向量随机分配的理论，即随着分配簇的个数增加，MI和NMI亦会趋向于增加。
$NMI(U,V)=\frac{MI(U,V)-E[MI(U,V)]}{F(H(U),H(V))-E[MI(U,V)]}$

其中 $E [M I (U, V)]$ 为互信息 $M I (U, V)$ 的期望，
$E[MI(U,V)]=\sum_{i=1}^R\sum_{j=1}^J\sum_{k=(a_i+b_j-N)^+}^{min(a_i,b_j)}\frac{k}{N}\ln(\frac{Nk}{a_ib_j})\frac{a_i!b_j!(N-a_i)!(N-b_j)!}{N!k!(a_i-k)!(b_j-k)!(N-a_i-b_j+k)!}$

其中 $a_i+b_j-N)^+=\max(1,a_i+b_j-N)$ ， $a_i,b_j$ 分别表示列联表 $M$ 的第 $i$ 行和第 $j$ 列之和，
$a_i=\sum_{j=1}^Jm_{ij},\quad b_j=\sum_{i=1}^Rm_{ij}$

$AMI\in[-1,1]$ ，取值越大，表明聚类结果与真实情况越吻合。

Python代码

from sklearn.metrics.cluster import entropy, mutual_info_score, normalized_mutual_info_score
MI = lambda x, y: mutual_info_score(x, y)
NMI = lambda x, y: normalized_mutual_info_score(x, y, average_method='arithmetic')
AMI = lambda x, y: adjusted_mutual_info_score(x, y, average_method='arithmetic')

兰德指数与调整兰德指数

兰德指数（Rand Index, RI）

兰德指数将聚类看成是一系列的决策过程，即对文档集上所有 $C_N^2=N(N-1)/2$ 个文档对进行决策。当且仅当两篇文档相似时，我们将它们归入同一簇中。

正确决策：

TP 将两篇相似文档归入一个簇 (同 - 同)；
TN 将两篇不相似的文档归入不同的簇 (不同 - 不同)。

错误决策：

FP 将两篇不相似的文档归入同一簇 (不同 - 同)；
FN 将两篇相似的文档归入不同簇 (同- 不同) (worse)。

RI 则是计算正确决策的比率
$RI=\frac{TP+TN}{TP+FP+TN+FN}=\frac{TP+TN}{C_N^2}$

$RI\in[0,1]$ ，取值越大，表明聚类结果与真实情况越吻合。

调整兰德指数（Adjusted Rand Index, ARI）

RI 的问题在于对两个随机的划分，其 RI 值不是一个接近于 0 的常数。ARI解决了RI不能很好的描述随机分配簇类标记向量的相似度问题。
$ARI=\frac{RI-E[RI]}{\max(RI)-E[RI]}$
在这里插入图片描述

$ARI\in[-1,1]$ ，取值越大，表明聚类结果与真实情况越吻合。

Python代码

from sklearn.metrics.cluster import adjusted_mutual_info_score
ARI = lambda x, y: adjusted_mutual_info_score(x, y)

聚类精确度（Accuracy, AC）

$AC=\frac{\sum_{i=1}^N\delta(s_i,map(r_i))}{N}$
其中 $r_i,s_i$ 分别表示数据 $x_i$ 所对应的获得的标签和真实标签， $\delta(\cdot)$ 为指示函数
$\delta(x,y)=\begin{cases} 1&x=y\\ 0&otherwise \end{cases}$
而式中的 map 则表示最佳类标的重现分配，以才能保证统计的正确。一般的该最佳重分配可以通过匈牙利算法 (Kuhn-Munkres or Hungarian Algorithm) 实现，从而在多项式时间内求解该任务（标签）分配问题。