首先,sklearn的文档里有一些很老很老的方法的介绍,一般是需要gt_label,一般不需要,但是我看那些不需要真实标签的方法,都是在简单的测量聚类结果中每一个cluster的“聚集度”,感觉都很弱:https://scikit-learn.org/stable/modules/clustering.html#clustering-performance-evaluation
然后,看了这个知乎的帖子:https://www.zhihu.com/question/19635522,我感觉我接下来要探索的方法,一类是用交叉验证的(cross-validation),一类是比较高级的聚类质量评估如S_DBW,聚类质量和聚类稳定性选做吧。
先从2010年“Understanding of Internal Clustering Validation Measures, Liu et al.” 这篇文章中看一下Internal/External clustering validation的定义吧:
External clustering validation and internal clustering validation are the two main categories of clustering validation. The main difference is whether or not external information is use