目录
一、聚类的定义
聚类就是将大量未知标注的数据集按照数据本身的特点将数据集划分为多个类别,使得类内的样本尽可能地相似,类间地样本尽可能地不同。
之前我们学习过的分类和回归问题都是有监督问题,给的训练集都是有标记的样本;而聚类问题则是无监督问题,训练集的样本都是无标记的。
二、模型的性能度量
为了能够分辨不同聚类模型的性能好坏,我们需要确定一些指标来评价我们得到的模型。
聚类性能指标一般有如下指标:
1、准确率
其中代表正确聚类的数据个数,N代表数据的总个数
2、纯度
其中N代表数据的总个数,代表第k个聚类簇,是数据集合,代表第j个数据
3、归一化互信息
互信息是至两个变量的关联程度,计算公式如下: