聚类任务
寻找数据的内在分布。
性能度量
亦称“有效性指标”,由此来评估聚类模型的好坏,并将其作为聚类过程的优化目标。
聚类要求:簇内相似度高且簇间相似度低。
两类度量指标:
外部指标:将聚类结果与某个“参考模型”进行比较
内部指标:直接考察聚类结果不利用任何参考模型
对数据集
D=x1,x2,...,xm
D
=
x
1
,
x
2
,
.
.
.
,
x
m
,假定通过聚类给出的簇划分为
C={C1,C2,...,Ck}
C
=
{
C
1
,
C
2
,
.
.
.
,
C
k
}
,参考模型给出簇划分为
C∗={C∗1,C∗2,...,C∗s}
C
∗
=
{
C
1
∗
,
C
2
∗
,
.
.
.
,
C
s
∗
}
,相应的,令
λ与λ∗
λ
与
λ
∗
分别表示与C和
C∗
C
∗
对应的簇标记向量。有如下定义:
基于以上定义可以导出下面常用的聚类性能度量外部指标:
+Jaccard系数: JC=aa+b+c J C = a a + b + c
+FM指数: FMI=aa+b⋅aa+c−−−−−−−√ F M I = a a + b · a a + c
+Rand 指数: RI=2(a+d)m(m−1) R I = 2 ( a + d ) m ( m − 1 )
上述结果均在[0,1]区间,值越大越好。
对于聚类结果的簇划分
C=C1,C2,...,Ck,
C
=
C
1
,
C
2
,
.
.
.
,
C
k
,
定义:
基于以上定义,我们列出以下聚类性能度量内部指标:
+DB指数: DBI=1k∑ki=1maxj≠i(avg(Ci)+avg(Cj)dcen (μi,μj))−−簇内平均距离越小越好 D B I = 1 k ∑ i = 1 k m a x j ≠ i ( a v g ( C i ) + a v g ( C j ) d c e n ( μ i , μ j ) ) − − 簇 内 平 均 距 离 越 小 越 好
+Dunn指数: DI=min1≤i≤k{minj≠i(dmin(Ci,Cj)max1≤l≤k diam(Cl))}−−簇间最近距离越大越好 D I = m i n 1 ≤ i ≤ k { m i n j ≠ i ( d m i n ( C i , C j ) m a x 1 ≤ l ≤ k d i a m ( C l ) ) } − − 簇 间 最 近 距 离 越 大 越 好
距离计算
对函数dist(·),若他是一个距离度量,则需要满足如下基本性质:
给定样本:
xi=(xi1;xi2;...,xin)与xj=(xj1;xj2;...,xjn)
x
i
=
(
x
i
1
;
x
i
2
;
.
.
.
,
x
i
n
)
与
x
j
=
(
x
j
1
;
x
j
2
;
.
.
.
,
x
j
n
)
,定义以下公式:
1.有序属性:
+“闵可夫斯基距离”: distmk(xi,xj)=(∑nu=1|xiu−xju|p)1p d i s t m k ( x i , x j ) = ( ∑ u = 1 n | x i u − x j u | p ) 1 p
+欧氏距离:p=2
+哈曼顿距离:p=1
2.无序属性:
VDM距离: VDMp(a,b)=∑ki=1|mu,a,imu,a−mu,b,imu,b|p V D M p ( a , b ) = ∑ i = 1 k | m u , a , i m u , a − m u , b , i m u , b | p ,其中 mu,a m u , a 表示在属性u上取值为a的样本数,
mu,a,i表示在第i个样本簇中在属性u上取值为a的样本数,k为样本簇数 m u , a , i 表 示 在 第 i 个 样 本 簇 中 在 属 性 u 上 取 值 为 a 的 样 本 数 , k 为 样 本 簇 数
3.混合属性:
将闵可夫斯基距离与VDM距离混合:
MinkovDMp(xi,xj)=(∑ncu=1|xiu−xju|p+∑nu=nc+1VDMp(xiu,xju))1p M i n k o v D M p ( x i , x j ) = ( ∑ u = 1 n c | x i u − x j u | p + ∑ u = n c + 1 n V D M p ( x i u , x j u ) ) 1 p
4.依据属性的重要性的加权距离(以闵可夫斯基距离为例):
distwmk(xi,xj)=(w1⋅|xi1−xj1|p+...+wn⋅|xin−xjn|p)1p d i s t w m k ( x i , x j ) = ( w 1 · | x i 1 − x j 1 | p + . . . + w n · | x i n − x j n | p ) 1 p