聚类及相关算法一(性能度量)

聚类任务

寻找数据的内在分布。

性能度量

亦称“有效性指标”,由此来评估聚类模型的好坏,并将其作为聚类过程的优化目标。

聚类要求:簇内相似度高且簇间相似度低。

两类度量指标
外部指标:将聚类结果与某个“参考模型”进行比较
内部指标:直接考察聚类结果不利用任何参考模型

对数据集 D=x1,x2,...,xm D = x 1 , x 2 , . . . , x m ,假定通过聚类给出的簇划分为 C={C1,C2,...,Ck} C = { C 1 , C 2 , . . . , C k } ,参考模型给出簇划分为 C={C1,C2,...,Cs} C ∗ = { C 1 ∗ , C 2 ∗ , . . . , C s ∗ } ,相应的,令 λλ λ 与 λ ∗ 分别表示与C和 C C ∗ 对应的簇标记向量。有如下定义:

a=|SS|, SS={(xi,xj)|λi=λj,λi=λj,i<j)}b=|SD|, SD={(xi,xj)|λi=λj,λiλj,i<j)}c=|DS|, DS={(xi,xj)|λiλj,λi=λj,i<j)}a=|DD|, DD={(xi,xj)|λiλj,λiλj,i<j)} a = | S S | ,   S S = { ( x i , x j ) | λ i = λ j , λ i ∗ = λ j ∗ , i < j ) } b = | S D | ,   S D = { ( x i , x j ) | λ i = λ j , λ i ∗ ≠ λ j ∗ , i < j ) } c = | D S | ,   D S = { ( x i , x j ) | λ i ≠ λ j , λ i ∗ = λ j ∗ , i < j ) } a = | D D | ,   D D = { ( x i , x j ) | λ i ≠ λ j , λ i ∗ ≠ λ j ∗ , i < j ) }
其中集合SS中表示两个数据样本在C中属于相同簇,也同时在 C C ∗ 中属于相同簇,以此类推。

基于以上定义可以导出下面常用的聚类性能度量外部指标:

+Jaccard系数: JC=aa+b+c J C = a a + b + c

+FM指数: FMI=aa+baa+c F M I = a a + b · a a + c

+Rand 指数: RI=2(a+d)m(m1) R I = 2 ( a + d ) m ( m − 1 )

上述结果均在[0,1]区间,值越大越好。


对于聚类结果的簇划分 C=C1,C2,...,Ck, C = C 1 , C 2 , . . . , C k , 定义:

avg(C)=2|C|(|C|1)1i<j|C|dist(xi,xj)diam(C)=max1i<j|C|dist(xi,xj)dmin(Ci,Cj)=minxiCi,xjCjdist(xi,xj)dcen(Ci,Cj)=dist(μi,μj) a v g ( C ) = 2 | C | ( | C | − 1 ) ∑ 1 ≤ i < j ≤ | C | d i s t ( x i , x j ) − − 簇 内 平 均 距 离 d i a m ( C ) = m a x 1 ≤ i < j ≤ | C | d i s t ( x i , x j ) − − 簇 内 最 远 距 离 d m i n ( C i , C j ) = m i n x i ∈ C i , x j ∈ C j d i s t ( x i , x j ) − − 簇 间 最 近 距 离 d c e n ( C i , C j ) = d i s t ( μ i , μ j ) − − 簇 间 的 中 心 距 离

基于以上定义,我们列出以下聚类性能度量内部指标:

+DB指数: DBI=1kki=1maxji(avg(Ci)+avg(Cj)dcen (μi,μj)) D B I = 1 k ∑ i = 1 k m a x j ≠ i ( a v g ( C i ) + a v g ( C j ) d c e n   ( μ i , μ j ) ) − − 簇 内 平 均 距 离 越 小 越 好

+Dunn指数: DI=min1ik{minji(dmin(Ci,Cj)max1lk  diam(Cl))} D I = m i n 1 ≤ i ≤ k { m i n j ≠ i ( d m i n ( C i , C j ) m a x 1 ≤ l ≤ k     d i a m ( C l ) ) } − − 簇 间 最 近 距 离 越 大 越 好

距离计算

对函数dist(·),若他是一个距离度量,则需要满足如下基本性质:

dist(xi,xj)0;dist(xi,xj)=0xi=xjdist(xi,xj)=dist(xj,xi);dist(xi,xj)dist(xi,xk)+dist(xk,xj) 非 负 性 : d i s t ( x i , x j ) ≥ 0 ; 同 一 性 : d i s t ( x i , x j ) = 0 当 且 仅 当 x i = x j 对 称 性 : d i s t ( x i , x j ) = d i s t ( x j , x i ) ; 直 递 性 : d i s t ( x i , x j ) ≤ d i s t ( x i , x k ) + d i s t ( x k , x j )

给定样本: xi=(xi1;xi2;...,xin)xj=(xj1;xj2;...,xjn) x i = ( x i 1 ; x i 2 ; . . . , x i n ) 与 x j = ( x j 1 ; x j 2 ; . . . , x j n ) ,定义以下公式:
1.有序属性:

+“闵可夫斯基距离”: distmk(xi,xj)=(nu=1|xiuxju|p)1p d i s t m k ( x i , x j ) = ( ∑ u = 1 n | x i u − x j u | p ) 1 p

+欧氏距离:p=2

+哈曼顿距离:p=1

2.无序属性:

VDM距离: VDMp(a,b)=ki=1|mu,a,imu,amu,b,imu,b|p V D M p ( a , b ) = ∑ i = 1 k | m u , a , i m u , a − m u , b , i m u , b | p ,其中 mu,a m u , a 表示在属性u上取值为a的样本数,

mu,a,iiuak m u , a , i 表 示 在 第 i 个 样 本 簇 中 在 属 性 u 上 取 值 为 a 的 样 本 数 , k 为 样 本 簇 数

3.混合属性:

将闵可夫斯基距离与VDM距离混合:

MinkovDMp(xi,xj)=(ncu=1|xiuxju|p+nu=nc+1VDMp(xiu,xju))1p M i n k o v D M p ( x i , x j ) = ( ∑ u = 1 n c | x i u − x j u | p + ∑ u = n c + 1 n V D M p ( x i u , x j u ) ) 1 p

4.依据属性的重要性的加权距离(以闵可夫斯基距离为例):

distwmk(xi,xj)=(w1|xi1xj1|p+...+wn|xinxjn|p)1p d i s t w m k ( x i , x j ) = ( w 1 · | x i 1 − x j 1 | p + . . . + w n · | x i n − x j n | p ) 1 p

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值