聚类在数据挖掘领域有很多算法,到底哪个算法效果比较好,根据实际情况应该如何选择哪个算法,是数据分析应该要考虑的问题,简单来说也就是聚类效果评估。
假设一个集合有N篇文章
那么这个集合的集合对就有
C(2N)=N(N−1)2
个集合对
- TP:同一类的文章被分到同一个簇
- TN:不同类的文章被分到不同簇
- FP:不同类的文章被分到同一个簇
- FN:同一类的文章被分到不同簇
Rand Index 度量的正确的百分比:
RI=TP+TNTP+FP+FN+TN
TP+FP=C(26)+C(26)+C(26)=40
TP=C(25)+C(24)+C(23)+C(22)=20
因此,
FP=40−20=20
同理,
FN+TN=(16)×(16)+(16)×(15)+C(16)×C(15)=96
FN=C(15)×C(13)+C(11)×C(12)+C(11)×C(14)+C(11)×C(13)=24
FP=96−24=72
同簇 | |
---|---|
同类 | TP = 20 |
不同类 | FP = 20 |
RI=20+7220+20+24+72≈0.68
Precision=TPTP+FP
Recall=TPTP+FN
-
β>1
-
Fβ=(β2+1)×Recall×Precisionβ2×Precision+Recall
Precision=2020+20=0.5
Recall=2020+24≈0.455
F1=2×0.455×0.50.455+0.5≈0.48
业精于勤荒于嬉,行成于思而毁于随