聚类效果评价——Calinski-Harabasz（CH指标）——内部评估标准（2）

最新推荐文章于 2024-03-12 15:43:45 发布

呆萌的代Ma

最新推荐文章于 2024-03-12 15:43:45 发布

阅读量1.1w

点赞数 6

分类专栏：数据分析文章标签：聚类

本文为CSDN博主"呆萌的代Ma"原创文章，转载请注明博客链接：https://blog.csdn.net/weixin_35757704/

本文链接：https://blog.csdn.net/weixin_35757704/article/details/117549099

版权

数据分析专栏收录该内容

14 篇文章 1 订阅

订阅专栏

Caliński, Tadeusz, and Jerzy Harabasz. “A dendrite method for cluster analysis.” Communications in Statistics-theory and Methods 3.1 (1974): 1-27.

公式与简介

CH指标的计算公式是： $\frac{\mathrm{tr}(B_k)}{\mathrm{tr}(W_k)} \times \frac{n_E - k}{k - 1}$

其中 $B_{k}$ 为 between-clusters dispersion mean（类间距离）， $W_{k}$ 为 within-cluster dispersion（类内部的距离），详细公式如下：

$W_k = \sum_{q=1}^k \sum_{x \in C_q} (x - c_q) (x - c_q)^T$

$B_k = \sum_{q=1}^k n_q (c_q - c_E) (c_q - c_E)^T$

$W_{k}$ 中： $C_q$ 表示当前点所在的类 $q$ ； $c_q$ 是当前类 $q$ 的聚类中心点

$B_{k}$ 中： $C_e$ 表示类 $e$ 的中心； $n_q$ 表示类别 $q$ 包含的点数。

值越大表示聚类效果越好

代码实现

import pandas as pd
import numpy as np
from sklearn import metrics
from sklearn.cluster import KMeans

dataframe = pd.DataFrame(data=np.random.randint(0, 50, size=(200, 10)))
# 以kmeans聚类方法为例
kmeans_model = KMeans(n_clusters=3, random_state=1).fit(dataframe)
labels = kmeans_model.labels_
score = metrics.calinski_harabasz_score(dataframe, labels)
print(score)

参考文章

sklearn:https://scikit-learn.org/stable/modules/clustering.html#calinski-harabasz-index

呆萌的代Ma

关注

6
点赞
踩
38

收藏

觉得还不错? 一键收藏
打赏
3
评论
聚类效果评价——Calinski-Harabasz（CH指标）——内部评估标准（2）

Caliński, Tadeusz, and Jerzy Harabasz. “A dendrite method for cluster analysis.” Communications in Statistics-theory and Methods 3.1 (1974): 1-27.公式与简介CH指标的计算公式是：s=tr(Bk)tr(Wk)×nE−kk−1s = \frac{\mathrm{tr}(B_k)}{\mathrm{tr}(W_k)} \times \frac{n_E - k}{.
复制链接

扫一扫