参考nlp原文https://nlp.stanford.edu/IR-book/html/htmledition/evaluation-of-clustering-1.html#fig:clustfg3
假设一个集合中有N篇文章,如图,一共有17篇
cluster1中主要的元素为‘x’,cluster2中主要的元素为‘o’,cluster3中主要的元素为‘菱形’
purity=(每个cluster主要元素数目和)/总样本数=(5+4+3)/17
TP:同一类文章被分到同一个簇
TN:不同类文章被分到不同簇
FP:不同类文章被分到同一个簇
FN:同一类文章被分到不同簇
Rand Index度量正确的百分比
RI=(TP+TN)/(TP+FP+FN+TN)=C(2,N) (可用于验算下面求得数据是否正确)=136
TP+FP=(文章被分到同一个簇的组合)=(每个cluster中选两个相加)=C(6,2)+C(6,2)+C(5,2)=40
TP=(同一类在每个簇中的组合情况)=C(5,2)+C(4,2)+C(3,2)+C(2,2)=20
FP=40-20=20
TN+FN=(文章被分到不同簇的组合)=(每个簇相互组合)=6*6+6*5+6*5=96
FN=(同一类文章在不同簇中的组合情况)=5(cluster1中的‘x’)*1(cluster2中的‘x’)+5(cluster1中的‘x’)*2(cluster3中的‘x’)
+1(cluster2中的‘x’)*2(cluster3中的‘x’)+1*4+1*3=24
TN=96-24=72
RI=(20+72)/(20+20+24+72)=0.68
P=TP/(TP+FP)
R=TP/(TP+FN)