西瓜书_chapter9_聚类

最新推荐文章于 2024-03-04 18:21:25 发布

lirt15

最新推荐文章于 2024-03-04 18:21:25 发布

阅读量389

点赞数

分类专栏：西瓜书笔记文章标签：聚类西瓜书

本文链接：https://blog.csdn.net/lirt15/article/details/93794175

版权

本文深入探讨了无监督学习中的聚类任务，包括聚类的目的、性能度量、距离计算和多种聚类算法，如k均值、学习向量量化和高斯混合聚类。此外，还介绍了密度聚类的DBSCAN算法以及层次聚类的AGNES算法，阐述了这些方法在揭示数据内在联系和结构中的作用。

摘要由CSDN通过智能技术生成

9.1 聚类任务

在无监督学习中，训练样本的标记信息是未知的，目标是通过对无标记样本的学习来揭示数据的内在性质及规律。
本章中，我们探索其中常用的“聚类"算法。它的目的是把数据集中的样本划分为若干个通常是不相交的子集，每个子集称为一个簇(cluster)。
聚类既能作为一个独立的过程，去探索数据之间的内在联系，也可以作为分类等其他学习任务的前驱过程.

9.2 性能度量

聚类性能度量也叫做聚类“有效性指标”(validity index)。一方面，与监督学习中的性能度量作用类似，我们需要一种评价指标来聚类算法的好坏；另一方面，如果我们能明确最终要用的指标，那么我们就可以直接将其作为优化目标。
聚类性能度量大概有两类，一类是把聚类结果与某个参考模型进行比较，称为外部指标，另一类是直接考察聚类结果而不用任何参考模型，称为内部指标。
对于数据集 $D=\{x_1,x_2,...,x_m\}$ ，我们假设通过聚类给出的簇划分为 $C=\{C_1,C_2,...,C_k\}$ ，参考模型给出的簇划分为 $C^*=\{C^*_1,C^*_2,...,C^*_k\}$ 我们将样本两两匹配考虑
$\begin{aligned} a=&|SS|, &SS=&\{(x_i,x_j)|\lambda_i=\lambda_j,\lambda^*_i=\lambda^*_j,i\lt j\} \\ b=&|SD|, &SD=&\{(x_i,x_j)|\lambda_i=\lambda_j,\lambda^*_i\ne\lambda^*_j,i\lt j\} \\ c=&|DS|, &DS=&\{(x_i,x_j)|\lambda_i\ne\lambda_j,\lambda^*_i=\lambda^*_j,i\lt j\} \\ d=&|DD|, &DD=&\{(x_i,x_j)|\lambda_i\ne\lambda_j,\lambda^*_i\ne\lambda^*_j,i\lt j\} \end{aligned}$
基于以上的定义，我们可以导出下列常用的外部指标：

Jaccard 系数
$JC=\frac{a}{a+b+c}$
FM 指数
$FMI=\sqrt{\frac{a}{a+b} \frac{a}{a+c}}$
Rand 指数
$RI=\frac{a+d}{m(m-1)/2},m=a+b+c+d$

以上的指标均分布在[0, 1]区间，越大越好。
考虑聚类结果的簇划分 $C=\{C_1,C_2,...,C_k\}$

最低0.47元/天解锁文章

lirt15

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
西瓜书_chapter9_聚类

9.1 聚类任务在无监督学习中，训练样本的标记信息是未知的，目标是通过对无标记样本的学习来揭示数据的内在性质及规律。本章中，我们探索其中常用的“聚类"算法。它的目的是把数据集中的样本划分为若干个通常是不相交的子集，每个子集称为一个簇(cluster)。聚类既能作为一个独立的过程，去探索数据之间的内在联系，也可以作为分类等其他学习任务的前驱过程.9.2 性能度量聚类性能度量也叫做聚类“有效...
复制链接

扫一扫

专栏目录