聚类效果评估

最新推荐文章于 2024-01-08 01:26:00 发布

weixin_30341735

最新推荐文章于 2024-01-08 01:26:00 发布

阅读量205

点赞数

文章标签： r语言

原文链接：http://www.cnblogs.com/kerwinpeng/p/4474837.html

版权

聚类在数据挖掘领域有很多算法，到底哪个算法效果比较好，根据实际情况应该如何选择哪个算法，是数据分析应该要考虑的问题，简单来说也就是聚类效果评估。

假设一个集合有N篇文章

那么这个集合的集合对就有\[C{2 \choose N}=\frac{N(N-1)}{2}\]个集合对

TP：同一类的文章被分到同一个簇
TN：不同类的文章被分到不同簇
FP：不同类的文章被分到同一个簇
FN：同一类的文章被分到不同簇

Rand Index 度量的正确的百分比: \[ RI = \frac{TP+TN}{TP+FP+FN+TN} \]

\[ TP+FP=C{2 \choose 6}+C{2 \choose 6}+C{2 \choose 6}=40 \]

\[ TP=C{2 \choose 5}+C{2 \choose 4}+C{2 \choose 3} + C{2 \choose 2}=20 \]

因此，\[ FP=40-20=20 \]
同理,
\[ FN+TN={1 \choose 6} \times {1 \choose 6} +{1 \choose 6} \times {1 \choose 5} +C{1 \choose 6} \times C{1 \choose 5} =96 \]

\[ FN=C{1 \choose 5} \times C{1 \choose 3}＋C{1 \choose 1} \times C{1 \choose 2}＋C{1 \choose 1} \times C{1 \choose 4}＋C{1 \choose 1} \times C{1 \choose 3}=24 \]

\[ FP=96-24=72 \]

	同簇
同类	TP = 20
不同类	FP = 20

\[ \textbf{RI}=\frac{20+72}{20+20+24+72}\approx0.68\]

\[\textbf{Precision}＝\frac{TP}{TP+FP} \]

\[\textbf{Recall}＝\frac{TP}{TP+FN} \]

\[ \beta>1 \]
\[\textbf{F}_\beta＝\frac{ (\beta^2+1) \times Recall\times Precision}{ \beta^2 \times Precision+Recall} \]

\[Precision＝\frac{20}{20+20}＝0.5 \]

\[Recall＝\frac{20}{20+24} \approx 0.455 \]

\[F_1＝\frac{ 2 \times 0.455 \times 0.5}{0.455 + 0.5} \approx 0.48 \]

转载于:https://www.cnblogs.com/kerwinpeng/p/4474837.html

weixin_30341735

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
聚类效果评估

聚类在数据挖掘领域有很多算法，到底哪个算法效果比较好，根据实际情况应该如何选择哪个算法，是数据分析应该要考虑的问题，简单来说也就是聚类效果评估。假设一个集合有N篇文章那么这个集合的集合对就有\[C{2 \choose N}=\frac{N(N-1)}{2}\]个集合对TP：同一类的文章被分到同一个簇TN：不同类的文章被分到不同簇FP：不同类的文章被分到同一个簇FN：同一类的文章被分...
复制链接

扫一扫