文本聚类评估指标purity,RI,R,P,F1,F5

参考nlp原文https://nlp.stanford.edu/IR-book/html/htmledition/evaluation-of-clustering-1.html#fig:clustfg3

假设一个集合中有N篇文章,如图,一共有17篇

cluster1中主要的元素为‘x’,cluster2中主要的元素为‘o’,cluster3中主要的元素为‘菱形’

purity=(每个cluster主要元素数目和)/总样本数=(5+4+3)/17

 

TP:同一类文章被分到同一个簇

TN:不同类文章被分到不同簇

FP:不同类文章被分到同一个簇

FN:同一类文章被分到不同簇

Rand Index度量正确的百分比

RI=(TP+TN)/(TP+FP+FN+TN)=C(2,N)   (可用于验算下面求得数据是否正确)=136

TP+FP=(文章被分到同一个簇的组合)=(每个cluster中选两个相加)=C(6,2)+C(6,2)+C(5,2)=40

TP=(同一类在每个簇中的组合情况)=C(5,2)+C(4,2)+C(3,2)+C(2,2)=20

FP=40-20=20

TN+FN=(文章被分到不同簇的组合)=(每个簇相互组合)=6*6+6*5+6*5=96

FN=(同一类文章在不同簇中的组合情况)=5(cluster1中的‘x’)*1(cluster2中的‘x’)+5(cluster1中的‘x’)*2(cluster3中的‘x’)

 +1(cluster2中的‘x’)*2(cluster3中的‘x’)+1*4+1*3=24

TN=96-24=72

RI=(20+72)/(20+20+24+72)=0.68

P=TP/(TP+FP)

R=TP/(TP+FN)

F_{\beta }=\frac{(\beta ^{2}+1)PR}{\beta ^{2}P+R}

 

 

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值