常用聚类算法以及算法评价

最新推荐文章于 2024-07-07 17:10:22 发布

shuaishuai3409

最新推荐文章于 2024-07-07 17:10:22 发布

阅读量6.5k

点赞数 1

分类专栏：机器学习/云计算

本文链接：https://blog.csdn.net/shuaishuai3409/article/details/52014884

版权

30 篇文章 4 订阅

订阅专栏

聚类模型是一种非监督的学习方法，聚类的输入是一组未标记的数据，聚类模型根据自身的距离或相似性将其化为若干组，划分的原则是组内距离最小化而组间距离最大化。常见聚类方法见下表：

类别	主要算法
划分方法	k-Means,k-Medoids(k中心点),CLANRANS(基于选择的算法)
层次分析方法	BIRCH(平均迭代规约和聚类)，CURE(代表点聚类)，CHAMELEON(动态模型)
基于密度的方法	DBSCAN(高密度连接区域)，DENCLUE(密度分布函数)，OPTICS(对象排序识别)
基于网格的方法	STING(统计信息网络)，SLIOUE(聚类高维空间)，WAVE-CLUSTER(小波变化)
基于模型的方法	统计学，神经网络

聚类分析算法评价：
聚类分析目标是实现组内相似性高，组间相似性低。组内相似性越大，组间相似性越大，聚类效果越好。

purity评价法
purity评价法相对简单，只需计算正确聚类数目占总数的比例。

purity(X,Y)= $\frac{1}{n}$ $\sum max|x_k\bigcap y_k|$
RI评价法
RI= $\frac{R+W}{R+M+D+W}$

R：应该在一起的两个对象被正确分类了
W：不应该被聚在一类的两个对象被正确分开了
M：不该放在一类的对象被错误的放在了一类
D：不应该分开的对象被错误的分开了
F值评价法
RI方法的衍生方法：
$F_a$ = $\frac{(1+\alpha^2)pr}{\alpha^2 p+r}$ ,
其中，p= $\frac{R}{R+M}$ ,r= $\frac{R}{R+D}$ .
实际上，RI方法就是把准确率p和召回率看得同等重要。事实上，有时我们需要某一特性更多一点，这时候就适合使用F值方法。

关注

专栏目录