简述聚类分析

最新推荐文章于 2024-05-13 00:39:42 发布

Foneone

最新推荐文章于 2024-05-13 00:39:42 发布

阅读量901

点赞数

分类专栏：机器学习理论学习文章标签：聚类机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/foneone/article/details/108986733

版权

机器学习理论学习专栏收录该内容

16 篇文章 19 订阅

订阅专栏

聚类分析指标

聚类分析主要利用簇来进行评价。要求：簇内相似性高，簇间相似性低。

两类评价指标：（1）外部指标：与参考模型对比（2）内部指标：直接考察聚类结果

外部指标，与参考模型对比：

（1）Jaccard 系数（Jaccard Coefficient ,JC系数）

（2）FM指数（Fowlkes and Mallows Index，FMI）

（3）Rand系数（Rand Index ,RI）

（4）ARI指数（Adjusted Rand Index，ARI）

使用RI时有个问题，就是对于随机聚类，RI不保证接近0（可能还很大）。而ARI指数就可以利用随机聚类情况下的RI即E[RI]来解决这个问题。

外部指标性能度量的结果都在[0,1]之间，这些值越大，说明聚类的性能越好。

内部指标，直接考察聚类效果

（1）DB指数（Davies-Bouldin ,DBI）：给定两个簇，每个簇样本之间平均值之和比上两个簇的中心点之间的距离作为度量。

（2）Dunn指数（Dunn Index，DI）：任意两个簇之间最近的距离的最小值。

DBI越小越好，DI越大越好。

F值：也就是常见的F1分数。当 $\alpha$ =1时，就是标准的F-1分数。此外准确率（Accuracy）和召回率（Recall）也是评价手段。

熵（Entropy）：查看类别所属于的概率，利用的就是熵公式。值越小不确定性越低，聚类效果越好。

纯度（Purity）: 纯度越高越好，聚类效果越好。纯度和熵都是从概率的角度出发的。参考链接2.

NMI （归一化互信息）和 MI （互信息）也是评价指标。

轮廓系数也是一种评价方法，结合内聚度和分离度两种因素来评价效果。

共性分类相关系数：是一种用于层次聚类效果的评价方法。

参考：链接1中有个表总结的特别全面。

聚类分析的类别

（1）原型聚类：首先给出一组原型刻画（原型就是假设已经有了每个簇的样本中心点）

K-means、二分 K-means、LVQ（学习向量化）【假设数据样本带有类别标记】这三种都是原型向量刻画。

高斯混合聚类采用概率模型刻画。

（2）密度聚类：通过样本分布的紧密程度确定。（查看样本点周围的点与该点对紧密程度）

DBSCAN基于“邻域”刻画，OPTICS；DEBCLUE；AGNES。

（3）层次聚类：在不同层次对数据集进行刻画，从而形成树形的聚类结构

AGNES：自底向上；DIANA：自顶向下；BIRCH；CLARANS CHAMELEON （书中没有）

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
简述聚类分析

简述聚类分析指标和模型
复制链接

扫一扫

专栏目录

Foneone CSDN认证博客专家 CSDN认证企业博客

码龄8年

142: 原创

3万+: 周排名

205万+: 总排名

104万+: 访问

: 等级

6930: 积分

833: 粉丝

1185: 获赞

363: 评论

6284: 收藏

私信

关注

热门文章

分类专栏

MIMIC数据库付费 21篇
SQL 8篇
刷题 36篇
NLP 9篇
海报分享 1篇
晚安 1篇
PGSQL 1篇
Axure 1篇
linux 2篇
sklearn 1篇
matplotlib
平时工作问题记录 35篇
机器学习 8篇
pytorch 13篇
tkinter 6篇
numpy 1篇
机器学习理论学习 16篇

最新评论

时间序列模型（ARIMA和ARMA）完整步骤详述
2301_76763198: 一开始的导入数据包和版本声明报错怎么办？
pytorch - K折交叉验证过程说明及实现
Hermit547: 这里定义k fold的时候是不是有点问题，看代码显然X_train会包含X_valid，感觉在elf X_train is None那边还应该加一个限定j!=i才行啊
遗传算法（GA）中的编码方式-二进制编码、格雷编码、实数编码
BadGrin: 0.2那个点为什么是表示为0100000000，那0.9的二进制串是表示0000000010吗，那么根据解码公式计算出来的精度相差0.8左右了吧..
时间序列模型（ARIMA和ARMA）完整步骤详述
Nianianla: 有可能是数据列有周期性，用SARIMA选择不同是周期可能会有比较好的预测结果
pytorch中的nn.LSTM模块参数详解
望舒剑鞘: num_layer=2的那张图清晰明了，多层情况下句子每个单词的信息传递方式画得很清楚，感谢博主！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Foneone 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。