聚类的性能度量以及常见的聚类类型

最新推荐文章于 2024-06-12 00:45:22 发布

Eric_zh69

最新推荐文章于 2024-06-12 00:45:22 发布

阅读量7.4k

点赞数 5

分类专栏：机器学习、数据分析与挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shaiguchun9503/article/details/81976544

版权

“聚类”（clustering）算法是“无监督学习”算法中研究最多、应用最广的算法，它试图将数据集中的样本划分为若干个通常是不相交的子集，每个子集称为一个“簇”（cluster）

因为聚类是在未标注样本上的分类算法，所以不像之前我们介绍的其它算法一样，我们可以直观的知道训练出来的模型的好坏，即我们不能通过比对测试样本的预测结果和真实预测结果误差值来近似泛化误差。

一、聚类结果好坏的评估指标：性能度量

聚类性能度量亦称聚类“有效性指标”（validity index），与监督学习一样，它的目的是为了用来评估聚类结果的好坏，当我们能通过性能度量来评估聚类的好坏时，我们就可以通过将这个性能度量作为优化目标来生成更好的聚类结果。

那么，对于聚类算法来说，什么样的结果是好的呢？

即想要---------聚类结果的“簇内相似度”（intra-cluster similarity）高且“簇间相似度”（inter-cluster similarity）低！！

按照这样的定义，我们将聚类的性能度量大致划分为了以下两类：

1、外部指标

这一类的性能度量是将聚类结果与某个“参考模型”（reference model）进行比较，比如与领域专家的划分结果进行比较（其实这已经算是某种程度上对数据进行标注了），称为“外部指标”（external index）

基于对参考模型权威的信任，我们可以认为参考模型对样本的划分是满足簇内相似度高且簇间相似度低的。所以对于“外部指标”，我们的度量目的就是要使得我们的聚类结果与参考模型尽可能相近，通常通过将聚类结果与参考模型结果对应的簇标记向量进行两两比对，来生成具体的性能度量，其度量的中心思想是：聚类结果中被划分到同一簇中的样本在参考模型中也被划分到同一簇的概率越高代表聚类结果越好。常用的性能指标有：Jaccard系数、FM指数、Rand指数。（图片来自网上）

è¿éåå¾çæè¿°

2、内部指标

这一类的性能度量是直接考察聚类结果而不利用任何参考模型，称为“内部指标”

“内部指标”通过计算簇内的样本距离，以及簇

最低0.47元/天解锁文章

关注

5
点赞
踩
13

收藏

觉得还不错? 一键收藏
1
评论
聚类的性能度量以及常见的聚类类型

“聚类”（clustering）算法是“无监督学习”算法中研究最多、应用最广的算法，它试图将数据集中的样本划分为若干个通常是不相交的子集，每个子集称为一个“簇”（cluster）因为聚类是在未标注样本上的分类算法，所以不像之前我们介绍的其它算法一样，我们可以直观的知道训练出来的模型的好坏，即我们不能通过比对测试样本的预测结果和真实预测结果误差值来近似泛化误差。一、聚类结果好坏的评估指标...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。