聚类的性能度量以及常见的聚类类型

“聚类”(clustering)算法是“无监督学习”算法中研究最多、应用最广的算法,它试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个“簇”(cluster)

因为聚类是在未标注样本上的分类算法,所以不像之前我们介绍的其它算法一样,我们可以直观的知道训练出来的模型的好坏,即我们不能通过比对测试样本的预测结果和真实预测结果误差值来近似泛化误差。

一 、 聚类结果好坏的评估指标:性能度量

聚类性能度量亦称聚类“有效性指标”(validity index),与监督学习一样,它的目的是为了用来评估聚类结果的好坏,当我们能通过性能度量来评估聚类的好坏时,我们就可以通过将这个性能度量作为优化目标来生成更好的聚类结果。

那么,对于聚类算法来说,什么样的结果是好的呢?

即想要---------聚类结果的“簇内相似度”(intra-cluster similarity)高且“簇间相似度”(inter-cluster similarity)低!!

按照这样的定义,我们将聚类的性能度量大致划分为了以下两类:

1、外部指标

这一类的性能度量是将聚类结果与某个“参考模型”(reference model)进行比较,比如与领域专家的划分结果进行比较(其实这已经算是某种程度上对数据进行标注了),称为“外部指标”(external index)

基于对参考模型权威的信任,我们可以认为参考模型对样本的划分是满足簇内相似度高且簇间相似度低的。所以对于“外部指标”,我们的度量目的就是要使得我们的聚类结果与参考模型尽可能相近,通常通过将聚类结果与参考模型结果对应的簇标记向量进行两两比对,来生成具体的性能度量,其度量的中心思想是:聚类结果中被划分到同一簇中的样本在参考模型中也被划分到同一簇的概率越高代表聚类结果越好。常用的性能指标有:Jaccard系数、FM指数、Rand指数。(图片来自网上)

è¿éåå¾çæè¿°

2、内部指标

这一类的性能度量是直接考察聚类结果而不利用任何参考模型,称为“内部指标”

“内部指标”通过计算簇内的样本距离,以及簇

  • 5
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值