聚类定义回顾: 把一个文档集合根据文档的相似性把文档分成若干类,究竟分成多少类,这个要取决于文档集合里文档自身的性质。
回答1:
基于不同算法,会有不同指标,通常较通用的应该一定都会有
Entropy 熵 和 Accuracy, (Accuracy 里可以包含了precision, recall, f-measure.)
假设我们使用k-means算法,通常会加上 SSE (Sum of squared errors )平方误差和,其他算法会有不同指标。
总体思想为一个cluster聚类内的数据点聚集在一起的密度越高, 圈子越小,离centroid中心点越近,那么这个聚类的总体质量 相对来说就会越好。
假设我们使用k-means算法,通常会加上 SSE (Sum of squared errors )平方误差和,其他算法会有不同指标。
总体思想为一个cluster聚类内的数据点聚集在一起的密度越高, 圈子越小,离centroid中心点越近,那么这个聚类的总体质量 相对来说就会越好。