“聚类”基础内容

性能度量

聚类性能度量有两类:

  1. 将聚类结果与某个“参考模型”(reference mode)进行比较,成为“外部指标”;

  2. 直接考察聚类结果而不利用任何参考模型,成为“内部指标”。

外部指标的推导:

对数据集D={x1 , x2 , … ,xm},假定通过聚类给出的簇划分为C={C1 , C2 , … , Ck},参考模型给出的簇划分为C*={C1* , C2* , … ,Cs*}。令 λ 与 λ* 分别表示与 C 和 C* 对应的簇标记向量。我们将样本两两配对考虑,定义
a = |SS| ,SS = { (xi , xj )| λi = λj,λi* = λj*,i < j }, (9.1)
a = |SD| ,SD = { (xi , xj )| λi = λj,λi* ≠ λj*,i < j }, (9.2)
a = |DS| ,DS = { (xi , xj )| λi ≠ λj,λi* = λj*,i < j }, (9.3)
a = |DD| ,DD = { (xi , xj )| λi ≠ λj,λi* ≠ λj*,i < j }, (9.4)
其中:
集合SS包含了在C中隶属于相同簇且在C中也隶属于相同簇的样本对,
集合SD包含了在C中隶属于相同簇但在C
中隶属于不同簇的样本对……,由于每个样本对(xi , xj) ( i<j )仅能出现在一个集合中,因此有 a + b + c + d = m ( m - 1 ) / 2 成立。
基于(9.1)~(9.4)可导出下面这些常用的聚类性能度量外部指标:
Jaccard系数(Jaccard Coefficient ,简称JC)
JC = a / ( a + b + c )
FM指数 (Foelkes and Mallows Index,简称FMI)
Fmi = √[(a / (a + b)* a / ( a + c) ]
Rand指数(Rand Index,简称RI)
RI = [2(a+b)] / [ m ( m -1)]
显然,上述性能度量的结果值均在[0 , 1]区间,值越大越好。

外部指标的推导:

考虑聚类结果的簇划分C={C1 , C2 , … , Ck},定义
arg(C) =
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
其中,dist(·,·)用于计算两个样本之间的距离;μ代表簇C的中心点
在这里插入图片描述
显然,avg©对应于簇C内样本间的平均距离,diam©对应于簇C内样本间的最短距离,在这里插入图片描述(Ci , Cj)对应于簇Ci与簇Cj最近样本间的距离,对应于簇Ci与簇Cj中心点间的距离。

基于式(9.8)~(9.11)可导出下面这些常用的聚类性能度量内部指标:
DB指数(Davies-Bouldin Index,简称DBI)
在这里插入图片描述
Dumn指数(Dumn Index,简称DI)
在这里插入图片描述
显然,DBI的值越小越好,而DI则相反,值越大越好。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值