怎样评价聚类结果好坏？

最新推荐文章于 2024-06-27 17:45:24 发布

weixin_30381793

最新推荐文章于 2024-06-27 17:45:24 发布

阅读量2.9k

点赞数

文章标签：人工智能数据结构与算法

原文链接：http://www.cnblogs.com/lifegoesonitself/p/3318643.html

版权

本文介绍了聚类结果的四种评价方法：purity、RI、F值和熵。purity易于计算，但无法评估退化聚类；RI利用组合原理，考虑了真阳性、假阳性等指标；F值则允许调整准确率和召回率的权重；熵作为信息论指标，衡量聚类的纯度和混乱程度。

摘要由CSDN通过智能技术生成

聚类定义回顾：把一个文档集合根据文档的相似性把文档分成若干类，究竟分成多少类，这个要取决于文档集合里文档自身的性质。

　回答1：

　基于不同算法，会有不同指标，通常较通用的应该一定都会有 Entropy 熵和 Accuracy, （Accuracy 里可以包含了precision, recall, f-measure.）
假设我们使用k-means算法，通常会加上 SSE （Sum of squared errors ）平方误差和，其他算法会有不同指标。
总体思想为一个cluster聚类内的数据点聚集在一起的密度越高， 圈子越小，离centroid中心点越近，那么这个聚类的总体质量 相对来说就会越好。

最低0.47元/天解锁文章

weixin_30381793

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。