第九章聚类学习笔记

最新推荐文章于 2023-03-13 03:49:54 发布

happy1yao

最新推荐文章于 2023-03-13 03:49:54 发布

阅读量1.2k

点赞数

分类专栏：机器视觉

本文链接：https://blog.csdn.net/weixin_41940752/article/details/94380502

版权

本文介绍了无监督学习中的聚类算法，包括聚类任务、性能度量、距离计算方法和几种常见的聚类算法，如K均值、LVQ和GMM。性能度量分为外部指标和内部指标，距离计算涉及了闵可夫斯基距离和VDM。K均值算法通过迭代优化求解簇内样本的平方误差和，文章还讨论了k值选取的策略和优化方法。

摘要由CSDN通过智能技术生成

到目前为止，前面章节介绍的方法都是针对监督学习(supervised learning)的，本章介绍的聚类(clustering)和下一章介绍的降维属于无监督学习(unsupervised learning)。
1. 聚类任务
聚类既能作为一个单独过程，用于找寻数据内在的分布结构，也可作为分类等其他学习任务的前驱过程。例如，在一些商业应用中需对新用户的类型进行判别，但定义"用户类型"对商家来说却可能不太容易，此时往往可先对用户数据进行聚类，根据聚类结果将每个簇定义为一个类，然后再基于这些类训练分类模型，用于判别新用户的类型。

2. 性能度量
性能度量是衡量学习模型优劣的指标，也可作为优化学习模型的目标函数。聚类性能度量根据训练数据是否包含标记数据分为两类，一类是将聚类结果与标记数据进行比较，称为“外部指标”；另一类是直接分析聚类结果，称为内部指标。
外部指标：比较聚类结果和实际标签。
假设一个数据集有m个样本，我们将样本两两配对考虑，令 λ 与 λ* 分别表示真实向量与标记向量.定义
在这里插入图片描述
实际标记同簇，预测结果也同簇，属于a；实际标记不同簇，预测结果同簇，属于b；实际标记同簇，预测结果不同簇，属于c；实际标记不同簇，预测结果也不同簇，属于d。

显然，上述性能度量的结果值均在 [0， 1] 区间，值越大越好.
内部指标：如果数据集标签未知，则必须使用模型本身的内部指标去度量聚类性能。内部指标直接基于聚类结果，簇内和簇间距离。dist表示两个特征向量的距离，计算方式见第3节。
在这里插入图片描述

3 距离计算
对于第2节中内部指标计算涉及的距离dist的计算，给定样本 Xi = (Xi1;Xi2;… ;Xin) 与的Xj= (Xjl; Xj2; . . . ; Xjn)，最常用的是 "闵可夫斯基距离"
在这里插入图片描述
称为Lp范数。p=2 时，闵可夫斯基距离即欧氏距离

p=l 时，闵可夫斯基距离即曼哈顿距离