机器学习入门学习笔记（六）聚类

最新推荐文章于 2023-03-03 12:47:00 发布

城东小路

最新推荐文章于 2023-03-03 12:47:00 发布

阅读量2.2k

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/chengdong996/article/details/107605892

版权

本文详细介绍了聚类的基本概念、性能度量、距离计算方法，并深入讲解了K均值、学习向量量化（LVQ）和高斯混合聚类等常见聚类算法。通过实例展示了算法的学习过程和应用场景，帮助初学者理解聚类在无监督学习中的应用。

摘要由CSDN通过智能技术生成

一、聚类任务

在无监督学习中研究最多、应用最广的是“聚类”(clustering)。

无监督学习(unsupervised learning)：
训练样本的标记信息是未知的，目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律。

聚类的目标：是将样本集 D 划分为若干互不相交的子集，即样本“簇”(cluster)。
每个簇可能对应于一些潜在的概念(类别)，这些概念对聚类算法而言事先是未知的，聚类过程仅能自动形成簇结构，簇所对应的概念语义需由使用者来把握和命名。

聚类既能作为一个单独过程，用于找寻数据内在的分布结构，也可作为分类等其他学习任务的前驱过程。例如，商业应用中需对新用户的类型进行判别，但定义“用户类型”对商家来说可能不太容易，此时往往可先对用户数据进行聚类，根据聚类结果将每个簇定义为一个类，然后再基于这些类训练分类模型，用于判别新用户的类型。

二、聚类的性能度量

聚类性能度量亦称聚类 “有效性指标”(validity index)。
性能度量技能用于来评估其好坏，也可直接将其作为聚类过程的优化目标。

那么什么样的聚类结果比较好呢 ?
直观上看，我们希望同一簇的样本尽可能彼此相似，不同簇的样本尽可能不同。
即聚类结果的 “簇内相似度”（intra-cluster similarity) 高且 “簇间相似度”（inter-cluster similarity) 低。

聚类性能度量大致有两类：
外部指标 (external index)：将聚类结果与某个“参考模型”(reference model)进行比较。
内部指标 (internalindex)：直接考察聚类结果。

2.1 外部指标

对数据集 D=(x₁,x₂,…,x_m｝,假定
通过聚类给出的簇划分为C={C₁,C₂,…,C_k}，
参考模型给出的簇划分为C^*={C₁^*,C₂^*,…,C_s^*｝
相应地，令入 λ 与 λ^* 分别表示与 C 和 C* 对应的簇标记向量。
我们将样本两两配对考虑，定义
在这里插入图片描述
集合 SS 包含了在 C 中隶属于相同簇且在 C* 中也隶属于相同簇的样本对
集合 SD 包含了在 C 中隶属于相同簇但在 C* 中隶属于不同簇的样本对….

由于每个样本对 (x_i,x_j)(i<j) 仅能出现在一个集合中，因此有a＋b + c + d = m(m-1) / 2成立。

基于式(9.1)~(9.4)可导出下面这些常用的聚类性能度量外部指标：

（1）Jaccard系数(Jaccard Coeficient，简称JC)
在这里插入图片描述
（2）FM指数(Fowlkes and Mallows Index，简称FMT)

（3）Rand 指数(Rand Index，简称РI)

上述性能度量的结果值均在 [0,1] 区间，值越大越好。

2.2 内部指标

考虑聚类结果的簇划分 C，定义
在这里插入图片描述
其中 dist 用于计算两个样本之间的距离；μ 代表簇 C 的中心点。

avg( C ) 对应于簇C内样本间的平均距离
diam( C ) 对应于簇C内样本间的最远距离
d_min(Ci,Cj) 对应于簇C_i与簇C_j最近样本间的距离
d_cen(Ci,Cj) 对应于簇C_i与簇C_j中心点间的距离.

基于式(9.8)~(9.11)可导出下面这些常用的聚类性能度量内部指标：
（1）DB指数 (Davies-Bouldin Index，简称DBI)
在这里插入图片描述
（2）Dunn指数 (Dunn Index，简称DI)

显然，DBI的值越小越好

最低0.47元/天解锁文章

城东小路

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
机器学习入门学习笔记（六）聚类

1、聚类任务在“无监督学习”(unsupervised learning)中，训练样本的标记信息是未知的，目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律，其中研究最多、应用最广的是“聚类”(clustering)。聚类的目标：是将样本集 D 划分为若干互不相交的子集，即样本“簇”(cluster)。每个簇可能对应于一些潜在的概念(类别)，这些概念对聚类算法而言事先是未知的，聚类过程仅能自动形成簇结构，簇所对应的概念语义需由使用者来把握和命名。聚类既能作为一个单独过程，用于找寻数据内在的分
复制链接

扫一扫

专栏目录