聚类在数据挖掘领域有很多算法,到底哪个算法效果比较好,根据实际情况应该如何选择哪个算法,是数据分析应该要考虑的问题,简单来说也就是聚类效果评估。
假设一个集合有N篇文章
那么这个集合的集合对就有\[C{2 \choose N}=\frac{N(N-1)}{2}\]个集合对
- TP:同一类的文章被分到同一个簇
- TN:不同类的文章被分到不同簇
- FP:不同类的文章被分到同一个簇
- FN:同一类的文章被分到不同簇
Rand Index 度量的正确的百分比: \[ RI = \frac{TP+TN}{TP+FP+FN+TN} \]
\[ TP+FP=C{2 \choose 6}+C{2 \choose 6}+C{2 \choose 6}=40 \]
\[ TP=C{2 \choose 5}+C{2 \choose 4}+C{2 \choose 3} + C{2 \choose 2}=20 \]
因此,\[ FP=40-20=20 \]
同理,
\[ FN+TN={1 \choose 6} \times {1 \choose 6} +{1 \choose 6} \times {1 \choose 5} +C{1 \choose 6} \times C{1 \choose 5} =96 \]
\[ FN=C{1 \choose 5} \times C{1 \choose 3}+C{1 \choose 1} \times C{1 \choose 2}+C{1 \choose 1} \times C{1 \choose 4}+C{1 \choose 1} \times C{1 \choose 3}=24 \]
\[ FP=96-24=72 \]
同簇 | |
---|---|
同类 | TP = 20 |
不同类 | FP = 20 |
\[ \textbf{RI}=\frac{20+72}{20+20+24+72}\approx0.68\]
\[\textbf{Precision}=\frac{TP}{TP+FP} \]
\[\textbf{Recall}=\frac{TP}{TP+FN} \]
- \[ \beta>1 \]
- \[\textbf{F}_\beta=\frac{ (\beta^2+1) \times Recall\times Precision}{ \beta^2 \times Precision+Recall} \]
\[Precision=\frac{20}{20+20}=0.5 \]
\[Recall=\frac{20}{20+24} \approx 0.455 \]
\[F_1=\frac{ 2 \times 0.455 \times 0.5}{0.455 + 0.5} \approx 0.48 \]