聚类任务和评价指标


一、聚类任务

聚类属于无监督学习,无监督学习是在训练样本没有标记信息的时候,通过对无标记信息的训练样本进行学习,寻找出数据的内在规律。聚类试图把给定的数据集分成若干个子集,这些子集成为“簇”。常用于定义用户类型、句子分类等任务当中。

二、性能度量

在我们把样本集成功聚类以后,得到若干个子集,那我们怎么评价这个聚类结果的好坏呢?

1.外部指标

假设对数据集聚类以后,得到的子集为C={C1,C2,…,Cn},参考模型给出的子集为F={F1,F2,…,Fn},定义 :
a=|SS|,表示在C中属于相同簇,在F中也属于相同簇的样本对
b=|SD|,表示在C中属于相同簇,在F中不属于相同簇的样本对
c=|DS|,表示在C中不属于相同簇,在F中属于相同簇的样本对
d=|DD|,表示在C中不属于相同簇,在F中也不属于相同簇的样本对

基于上面的数据看,可以计算聚类任务的性能度量外部指标:
一、Jaccard系数(Jaccard Coeffcient,简称JC):
JC = a / ( a + b + c )
二、FM指数(Fowlkes and Mallows Index,FMI):
FMI =√(a / (a+b) * a / (a+c))
三、Rand指数(Rand Index):
RI = 2 * ( a+d ) / ( m*(m-1) )

上述的度量值在[0,1]之间,结果越大,效果越好。

2.内部指标

对于聚类结果C={C1,C2,…,Cn},定义:

1、avg(Ck) = 2 / ( |Ck| (|Ck|-1) ) * ∑ dist(xi,xj) , avg(Ck)表示第k簇的样本间平均距离,即xi,xj∈Ck,并且i!=j。
2、dmax(Ck) = max (dist(xi,xj)) , dmax(Ck)表示第Ck簇样本间的最大距离,即xi,xj∈Ck,并且i!=j。
3、dmin(Ci,Cj) = min (dist(xi,xj)) , dmin(Ci,Cj)表示第Ci和Cj两个簇之间的最短样本距离,xi∈Ci,xj∈Cj
4、dcen(Ci,Cj) = dist(ui,uj) , dcen(Ci,Cj) 表示第Ci和Cj两个簇的中心点距离,u表示中心点坐标。

dist(x,y)表示样本点x,y的距离,距离越大,相似性越低,距离公式可以参考之前的常用距离公式。

基于上面的定于,可以得到聚类性能度量的内部指标:

一、DB指数(Davies-Bouldin Index,DBI):
DBI=1/n * ∑i{max[ (avg(Ci)+avg(Cj)/ dcen(Ci,Cj) ]}

i{max[ (avg(Ci)+avg(Cj)/ dcen(Ci,Cj) ]}表示对于所有 i∈[1,n],计算avg(Ci)+avg(Cj)/ dcen(Ci,Cj),j∈[1,n] 并且 j != i,取最大的值求和再平均。所以DBI越小越好

二、Dunn指数(Dunn Index,DI):
DI=mini { min[ dmin(Ci,Cj) / maxk[dmax(Ck)] ] }

maxk[dmax(Ck)] 表示k∈[1,n],取最大的dmax(Ck),mini表示遍历所有 i∈[1,n],取最小值。DI越大越好

说明

这些都是周志华《机器学习》上面的知识,想学习的朋友可以之间去看原书,我这里只是记录下来而已。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值