如何确定聚类的类别个数
-
由适当的阈值确定
-
根据数据点的散布图直观地确定类的个数
-
手肘法,利用核心指标SSE(sum of the squared errors误差平方和)在k增大时下降的斜率来判断,选取下降程度变化由剧烈到平滑的分割点,即肘部
S S E = ∑ i = 1 k ∑ p ∈ C i ∣ p − m ∣ 2 SSE=\sum_{i=1}^{k}\sum_{p\in C_i}|p-m|^2 SSE=i=1∑kp∈Ci∑∣p−m∣2 -
轮廓系数法:轮廓系数(Silhouette Coefficient)结合了聚类的凝聚度(Cohesion)和分离度(Separation),用于评估聚类的效果。该值处于-1~1之间,值越大,表示聚类效果越好。
先计算每个样本的轮廓系数S
S = b − a max ( a , b ) S=\frac{b-a}{\max(a, b)} S=max(a,b)b−a
a(凝聚度)是类内平均距离,b(分离度)是最近簇平均距离。
然后计算所有样本的平均轮廓系数,选取轮廓系数最大的k值。 -
DBI(Davies Bouldin index)(戴维森堡丁指数)(分类适确性指标)
对于DBI,每个类别的 R i R_i Ri是当前类内与周围某个类的区分度的倒数, S i S_i Si、 S j S_j Sj越大, d i j d_{ij} dij越小,表示类内离散度大,类间离散度小,所以聚类效果不好, R i R_i Ri很大。
反之 S i S_i Si、 S j S_j Sj越小, d i j d_{ij} dij越大,此时聚类效果也好, R i R_i Ri很小。 -
CH指标
CH指标越大越好