聚类算法评估指标及代码

最新推荐文章于 2024-04-22 21:35:14 发布

真的卷

最新推荐文章于 2024-04-22 21:35:14 发布

阅读量306

点赞数

分类专栏：机器学习文章标签：算法聚类数据挖掘

本文链接：https://blog.csdn.net/qq_54779611/article/details/132034987

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

外部指标（有真实标签）

兰德指数（RI）

取值为 $[0 - 1]$ 越大越表明聚类结果与真实结果吻合
$RI=\frac{a+b}{c_n^2}$

a：在预测结果和真实标签中都属于同一簇的样本对的数量
b：在预测结果和真实标签中都不属于同一簇的样本对的数量
$c_n^2$ :组合数

def RI(Y_pred, Gt):
	a=0
	b=0
	n = len(Gt)
	for i in range(n):
		for j in range(n):
			if Y_pred[i]==Y_pred[j] and Gt[i]==Gt[j] :
				a += 1
			elif Y_pred[i]!=Y_pred[j] and Gt[i]!=Gt[j]:
				b += 1
	return (a+b)*2/(n*(n-1))

调整兰德指数（ARI）

由于当两个划分是随机的时候RI的值并不为0，所以对其进行调整。
$ARI=\frac{\sum_{ij}{C^2_{n_{ij}}}-[\sum_iC^2_{a_i}\sum_jC^2_{b_j}]/C^2_n}{\frac{1}{2}[\sum_iC^2_{a_i}+\sum_jC^2_{b_j}]-[\sum_iC^2_{a_i}\sum_jC^2_{b_j}]/C^2_n}$
取值范围为 $[- 1, 1]$ ,当两个划分是随机的时候，ARI的值为0。

首先要得到列联表
$c_n^2$ :组合数

可直接调用sklean中的代码

ARI = metrics.adjusted_rand_score(X, Y)

标准互信息（NMI）

通过互信息来度量两个划分之间的相似度，取值在 $[0 - 1]$ 之间。
$\frac{2*I(X,Y)}{H(X)+H(Y)}$

$H (X)$ :代表X的熵 $H(X)=\sum{p(x)*logp(x)}$
$I (X, Y)$ :代表X和Y之间的互信息 $I(X,Y)=\sum_x\sum_y{p(x,y)*log\frac{p(x,y)}{p(x)p(y)}}$
可直接调用sklean

NMI = metrics.normalized_mutual_info_score(X,Y)

同质性和完整性

同质：簇内是否只包含同一类别的样本。
完整：同一类别的样本点是否被划分到同一簇内。

$1-\frac{H(Y|X)}{H(Y)}$
$1-\frac{H(X|Y)}{H(X)}$

X为预测结果，Y为标签
$H (X)$ :代表X的熵 $H(X)=\sum{p(x)*logp(x)}$

K = metrics.homogeneity_score(Y，X)
C = metrics.completeness_score(Y, X)

V-Measure

同时考虑到同质性和完整性
$\frac{(1+\beta)*K*C}{\beta*K+C}$

V-Measure = metrics.v_measure_score(Y, X)

内部指标（无真实标签）

轮廓分数（Silhouette Score）

轮廓分数主要基于样本点与簇内和相邻簇内的相似度，距离来计算的，数值越高越好
$\frac{a+b}{max(a,b)}$

a：样本点距离簇内样本点的平均距离
b：样本点距离最近簇中样本的平均距离

Silhouette_Score = metrics.silhouette_score(X, km_labels, metric='euclidean')

$\frac{||[E^*]_{:,i}||_2-min}{max-min}$

$\frac{||[E^*]_{:,i}||_2-||[W]_{:,i}||_2-min}{max-min} \space s.t.\space W_{i,i}=0$

真的卷

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
1
评论
聚类算法评估指标及代码

聚类算法评估指标
复制链接

扫一扫

专栏目录