关于聚类类别数k的选择

如何确定聚类的类别个数

  1. 由适当的阈值确定

  2. 根据数据点的散布图直观地确定类的个数

  3. 手肘法,利用核心指标SSE(sum of the squared errors误差平方和)在k增大时下降的斜率来判断,选取下降程度变化由剧烈到平滑的分割点,即肘部
    S S E = ∑ i = 1 k ∑ p ∈ C i ∣ p − m ∣ 2 SSE=\sum_{i=1}^{k}\sum_{p\in C_i}|p-m|^2 SSE=i=1kpCipm2

  4. 轮廓系数法:轮廓系数(Silhouette Coefficient)结合了聚类的凝聚度(Cohesion)和分离度(Separation),用于评估聚类的效果。该值处于-1~1之间,值越大,表示聚类效果越好。
    先计算每个样本的轮廓系数S
    S = b − a max ⁡ ( a , b ) S=\frac{b-a}{\max(a, b)} S=max(a,b)ba
    a(凝聚度)是类内平均距离,b(分离度)是最近簇平均距离。
    然后计算所有样本的平均轮廓系数,选取轮廓系数最大的k值。

  5. DBI(Davies Bouldin index)(戴维森堡丁指数)(分类适确性指标)
    Davies-Bouldin
    对于DBI,每个类别的 R i R_i Ri是当前类内与周围某个类的区分度的倒数, S i S_i Si S j S_j Sj越大, d i j d_{ij} dij越小,表示类内离散度大,类间离散度小,所以聚类效果不好, R i R_i Ri很大。
    反之 S i S_i Si S j S_j Sj越小, d i j d_{ij} dij越大,此时聚类效果也好, R i R_i Ri很小。

  6. CH指标
    Calinski-Harabasz
    CH指标越大越好

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值