怎样评价聚类结果好坏?

本文介绍了聚类结果的四种评价方法:purity、RI、F值和熵。purity易于计算,但无法评估退化聚类;RI利用组合原理,考虑了真阳性、假阳性等指标;F值则允许调整准确率和召回率的权重;熵作为信息论指标,衡量聚类的纯度和混乱程度。
摘要由CSDN通过智能技术生成

聚类定义回顾: 把一个文档集合根据文档的相似性把文档分成若干类,究竟分成多少类,这个要取决于文档集合里文档自身的性质。

 

 回答1:
 基于不同算法,会有不同指标,通常较通用的应该一定都会有 Entropy 熵 和 Accuracy, (Accuracy 里可以包含了precision, recall, f-measure.)
假设我们使用k-means算法,通常会加上 SSE (Sum of squared errors 平方误差和,其他算法会有不同指标。
总体思想为一个cluster聚类内的数据点聚集在一起的密度越高, 圈子越小,离centroid中心点越近,那么这个聚类的总体质量 相对来说就会越好。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值