聚类效果评估

聚类在数据挖掘领域有很多算法,到底哪个算法效果比较好,根据实际情况应该如何选择哪个算法,是数据分析应该要考虑的问题,简单来说也就是聚类效果评估。


假设一个集合有N篇文章

那么这个集合的集合对就有\[C{2 \choose N}=\frac{N(N-1)}{2}\]个集合对

  • TP:同一类的文章被分到同一个簇
  • TN:不同类的文章被分到不同簇
  • FP:不同类的文章被分到同一个簇
  • FN:同一类的文章被分到不同簇

Rand Index 度量的正确的百分比: \[ RI = \frac{TP+TN}{TP+FP+FN+TN} \]

032214164277021.jpg

\[ TP+FP=C{2 \choose 6}+C{2 \choose 6}+C{2 \choose 6}=40 \]

\[ TP=C{2 \choose 5}+C{2 \choose 4}+C{2 \choose 3} + C{2 \choose 2}=20 \]

因此,\[ FP=40-20=20 \]
同理,
\[ FN+TN={1 \choose 6} \times {1 \choose 6} +{1 \choose 6} \times {1 \choose 5} +C{1 \choose 6} \times C{1 \choose 5} =96 \]

\[ FN=C{1 \choose 5} \times C{1 \choose 3}+C{1 \choose 1} \times C{1 \choose 2}+C{1 \choose 1} \times C{1 \choose 4}+C{1 \choose 1} \times C{1 \choose 3}=24 \]

\[ FP=96-24=72 \]

同簇
同类TP = 20
不同类FP = 20

\[ \textbf{RI}=\frac{20+72}{20+20+24+72}\approx0.68\]

\[\textbf{Precision}=\frac{TP}{TP+FP} \]

\[\textbf{Recall}=\frac{TP}{TP+FN} \]

  • \[ \beta>1 \]
  • \[\textbf{F}_\beta=\frac{ (\beta^2+1) \times Recall\times Precision}{ \beta^2 \times Precision+Recall} \]

\[Precision=\frac{20}{20+20}=0.5 \]

\[Recall=\frac{20}{20+24} \approx 0.455 \]

\[F_1=\frac{ 2 \times 0.455 \times 0.5}{0.455 + 0.5} \approx 0.48 \]

转载于:https://www.cnblogs.com/kerwinpeng/p/4474837.html

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值