sklearn聚类评价指标

最新推荐文章于 2023-10-16 15:36:55 发布

dejing6575

最新推荐文章于 2023-10-16 15:36:55 发布

阅读量3.6k

点赞数 3

文章标签：人工智能 python

原文链接：http://www.cnblogs.com/weiyinfu/p/10892308.html

版权

本文介绍了sklearn库中用于聚类评估的两个重要指标：Adjusted Rand Index（调整兰德系数）和silhouette_score。调整兰德系数通过比较实际类别与聚类结果的相似性，纠正了随机聚类可能导致的高分问题。而silhouette_score衡量的是样本的类内紧密度与类间分离度，提供了无监督聚类效果的评估。通过这两个指标，可以更好地理解和评估聚类算法的效果。

摘要由CSDN通过智能技术生成

sklearn中的指标都在sklearn.metric包下，与聚类相关的指标都在sklearn.metric.cluster包下，聚类相关的指标分为两类：有监督指标和无监督指标，这两类指标分别在sklearn.metric.cluster.supervised和sklearn.metric.cluster.unsupervised包下。聚类指标大部分都是有监督指标，无监督指标较少。
无监督指标和有监督指标应该充分配合起来：无监督指标很好，有监督指标很差，表明这个问题可能不是单靠聚类就能解决的；无监督指标很差，有监督指标很好，表明有监督指标很可能是不靠谱的，数据标注有问题。

sklearn.metric.cluster.__init__.py把所有的聚类指标都引入进来了。
实际上，sklearn.metric包把cluster下的指标全部引进来了，所以可以直接使用sklearn.metric而不必关心sklearn.metric.cluster.

from .supervised import adjusted_mutual_info_score
from .supervised import normalized_mutual_info_score
from .supervised import adjusted_rand_score
from .supervised import completeness_score
from .supervised import contingency_matrix
from .supervised import expected_mutual_information
from .supervised import homogenei