Calinski-Harbasz Score 详解

在做海量数据聚类分析(MiniBatch Kmeans)的时候,常常因为数据量太大画不出dendrogram,没办法用Elbow Method确定K值。这时需要其他metrics辅助确定K值。在做聚类之前,一定要先做去重啊!

概括地说,评估聚类的方法主要有两种:

  • 内部评估方法:不需要借助其他监督数据,通过一个单一的量化得分评估算法好坏
  • 外部评估方法:需要知道数据的类别,通过将聚类结果与ground truth进行对比,评估算法好坏

实际生产环境中,很少有标注数据帮助我们进行聚类,因为很难人为地确定到底有多少个簇,簇之间的区别不是很明显,特别是对于文本数据。

内部评估方法有:

  • Silhouette Coefficient
  • Calinski-Harbasz Score
  • Davies-Boulding

详细地使用方法可以参考sklearn文档:2.3. Clustering — scikit-learn 1.0.2 documentation

为了后续复习方便,这里简单介绍一下Silhouette Coefficient。Silhouette Coefficient对于一个样本点需要计算两种距离: a-当前样本点与同类的其他样本点的平均距离,b-当前样本点与最接近的另一个类的其他样本点的平均距离。当前样本点的得分是s,计算方式如下:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值