AI(005) - 笔记 - 聚类性能评估(Clustering Evaluation)

这篇博客详细介绍了聚类性能评估,包括外部评估的Rand Index(RI)、Adjusted Rand Index(ARI)、Adjusted Mutual Information(AMI),以及内部评估的Silhouette系数等。通过这些指标,可以衡量聚类结果的质量,如簇内相似度和簇间差异。文章还提及了sklearn库中的相关评估函数。
摘要由CSDN通过智能技术生成

聚类性能评估(Clustering Evaluation and Assessment)

这篇文章是对聚类性能评估的总结,对应:

  • 第四周:(10)4.10 聚类算法评估
  • 《机器学习》(西瓜书):第9章 聚类 - 9.2 性能度量
  • 维基百科(en):
    • “Cluster analysis” 词条
    • “Rand index”词条
    • “Adjusted mutual information”词条
    • “Silhouette (clustering)”词条
  • sklearn官方文档


1 聚类性能评估的一些说明

说到聚类性能比较好,就是说同一簇的样本尽可能的相似,不同簇的样本尽可能不同,即是说聚类结果“簇内相似度”(intra-cluster similarity)高,而“簇间相似度”(inter-cluster similarity)低。

聚类性能的评估(度量)分为两大类:

  • 外部评估(external evaluation):将结果与某个“参考模型”(reference model)进行比较;
  • 内部评估(internal evaluation):直接考虑聚类结果而不利用任何参考模型。

对有n个元素的数据集 D={ x1,x2,,xn} D = { x 1 , x 2 , ⋯ , x n }

  • 假定聚类结果: X={ X1,X2,,XK} X = { X 1 , X 2 , ⋯ , X K }
  • 假定参考结果: Y={ Y1,Y2,,YL} Y = { Y 1 , Y 2 , ⋯ , Y L }

那么将样本两两配对得:

  • a=|SS|,whereSS={ (xi,xj)|xi,xjXk;xi,xjYl} a = | S S | , w h e r e S S = { ( x i , x j ) | x i , x j ∈ X k ; x i , x j ∈ Y l }
  • b=|SD|,whereSD={ (xi,xj)|xi,xjXk;xiYl1,xjYl2} b = | S D | , w h e r e S D = { ( x i , x j ) | x i , x j ∈ X k ; x i ∈ Y l 1 , x j ∈ Y l 2 }
  • c=|DS|,whereDS={ (xi,xj)|xiXk1,xjXk2;xi,xjYl} c = | D S | , w h e r e D S = { ( x i , x j ) | x i ∈ X k 1 , x j ∈ X k 2 ; x i , x j ∈ Y l }
  • d=|DD|,whereDD={ (xi,xj)|xiXk1,xjXk2;xiYl1,xjYl2} d = | D D | , w h e r e D D = { ( x i , x j ) | x i ∈ X k 1 , x j ∈ X k 2 ; x i ∈ Y l 1 , x j ∈ Y l 2 }

其中:

  • ij;1i,jn i ≠ j ; 1 ≤ i , j ≤ n
  • k1k2;1k,k1,k2K k 1 ≠ k 2 ; 1 ≤ k , k 1 , k 2 ≤ K
  • l1l2;1l,l1,l2L l 1 ≠ l 2 ; 1 ≤ l , l 1 , l 2 ≤ L

那么所有配对的总数,即集合中可以组成样本对的对数为:

a+b+c+d=(n2)=n(n1)2 a + b + c + d = ( n 2 ) = n ( n − 1 ) 2


2 常用外部评估(external evaluation)

2.1 Rand Index(RI) and Adjust Rand Index(ARI)

  • Rand Index

    RI=a+d(n2)=2(a+d)n(n1)
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值