聚类分析中的内部指标——Calinski-Harabasz Index(CH 指数)详解
在聚类分析(Clustering)中,内部指标(Internal Evaluation Metrics) 用于衡量聚类结果的质量,尤其是对无监督学习模型的效果进行定量评价。Calinski-Harabasz Index(CH 指数) 是衡量聚类质量的一个常用指标,它通过考量簇内样本的紧密度和簇间分离度来评估聚类的效果。
一、Calinski-Harabasz Index(CH 指数)概念
1. CH 指数的直观理解
Calinski-Harabasz Index(CH 指数) 通过计算簇间散度矩阵(即簇间的离散度)和簇内散度矩阵(即簇内的紧密度)之比来评估聚类质量。该指数的值越大,表示聚类的效果越好,聚类结果越有效。具体来说,CH 指数综合考虑了簇间的分离度和簇内的紧密度,能很好地反映聚类的质量。一般来说,我们希望簇间的离散度越大,簇内的紧密度越小,从而得到较大的 CH 指数。
2. CH 指数的计算公式
Calinski-Harabasz Index(CH 指数)的数学公式可以通过以下步骤推导得到。设数据集包含 n n n 个样本,并将其分为 K K K 个簇,其中每个簇 G k G_k Gk 中有 ∣ G k ∣ |G_k| ∣Gk∣ 个样本。
1. 计算簇内散度矩阵 S W S_W SW
簇内散度矩阵 S W S_W SW 用来衡量每个簇内部样本的分散程度,公式为:
S W = ∑ k = 1 K ∑ x i ∈ G k ( x i − c k ) ( x i − c k ) ⊤ , S_W = \sum_{k=1}^{K} \sum_{x_i \in G_k} (x_i - \mathbf{c}_k)(x_i - \mathbf{c}_k)^\top, SW=k=1∑Kxi∈Gk∑(xi−ck)(xi−ck)⊤,
其中:
- x i x_i xi 是簇 G k G_k Gk 中的第 i i i 个样本;
- c k \mathbf{c}_k ck 是簇 G k G_k Gk 的质心,表示簇内所有样本的均值:
c k =