西瓜书学习笔记9-聚类

chapter 9 聚类

9.1聚类任务

在无监督学习中,训练样本的标记未知,目标是通过无标记训练样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础,此类学习中应用最广,研究最多的是“聚类”。
聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个,通过这样的划分,每个簇可能对应一些潜在的概念(类别),如“浅色瓜”,“深色瓜”,“有籽瓜”等。这些概念对聚类算法而言事先是未知的,聚类过程仅能自动形成簇结构,簇所对应的概念语义需由使用者来把握和命名。
聚类既能作为一个单独过程,用于找寻数据内在的分布结构,也可作为分类等其他学习任务的前驱过程,例如在商业应用中需对新用户的类型进行判别,但定义“用户类型”对商家来说并不容易,此时往往可先对用户数据进行聚类,根据聚类结果将每个簇定义为一个类,然后再基于这些类训练分类模型,用于判别新用户的类型。
基于不同的学习策略,人们设计出多种类型的聚类算法,先讨论聚类算法涉及的两个基本问题–性能度量和距离计算

9.2 性能度量

聚类性能度量亦称聚类“有效性指标”,与监督学习的性能度量类似,对聚类结果,我们需通过某种性能度量来评估其好坏,另一方面,若明确了最终将要使用的性能度量,则可直接将其作为聚类过程的优化目标,从而更好地得到符合要求的聚类结果。
较好的聚类结果是“簇内相似度”高且“簇间相似度”低。
聚类性能度量有两类:1、将聚类结果与某个“参考模型”进行比较,称为“外部指标”;另一类是直接考察聚类结果而不利用任何参考模型,称为“内部指标”。
对数据集D,假定聚类给出的簇划分为C={C1,C2…Ck},参考模型给出的簇划分为C*={C1*,C2*…Cs*},将样本两两配对考虑,定义:
在这里插入图片描述
a表示xi和xj在C和C中都属于同一个簇的样本对数,b表示在C中属于相同簇,但在C中属于不同簇的样本对数,以此类推。
基于9.1-9.4可导出下面这些常用的聚类性能度量外部指标
1、Jaccard系数:
在这里插入图片描述
2、FM指数:
在这里插入图片描述
3、Rand指数:
在这里插入图片描述
上面这些值越大,聚类结果越好。

聚类性能度量内部指标
考虑聚类结果的簇划分C={C1,C2…Ck},定义:
在这里插入图片描述
dist用于计算两个样本之间的距离,μ代表簇C的中心点。
avg(C)对应于簇C内样本间的平均距离,diam(C)对应簇C内样本间的最远距离,dmin(Ci,Cj)对应于两个簇最近样本间的距离,dcen(Ci,Cj)对应于两个簇中心点间的距离。
基于9.8-9.11可导出下面这些常用的聚类性能度量内部指标。
1、DB指数,简称DBI
在这里插入图片描述
2、Dunn指数,简称DI

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值