性能度量
聚类性能度量有两类:
-
将聚类结果与某个“参考模型”(reference mode)进行比较,成为“外部指标”;
-
直接考察聚类结果而不利用任何参考模型,成为“内部指标”。
外部指标的推导:
对数据集D={x1 , x2 , … ,xm},假定通过聚类给出的簇划分为C={C1 , C2 , … , Ck},参考模型给出的簇划分为C*={C1* , C2* , … ,Cs*}。令 λ 与 λ* 分别表示与 C 和 C* 对应的簇标记向量。我们将样本两两配对考虑,定义
a = |SS| ,SS = { (xi , xj )| λi = λj,λi* = λj*,i < j }, (9.1)
a = |SD| ,SD = { (xi , xj )| λi = λj,λi* ≠ λj*,i < j }, (9.2)
a = |DS| ,DS = { (xi , xj )| λi ≠ λj,λi* = λj*,i < j }, (9.3)
a = |DD| ,DD = { (xi , xj )| λi ≠ λj,λi* ≠ λj*,i < j }, (9.4)
其中:
集合SS包含了在C中隶属于相同簇且在C中也隶属于相同簇的样本对,
集合SD包含了在C中隶属于相同簇但在C中隶属于不同簇的样本对……,由于每个样