机器学习笔记之谱聚类(二)谱聚类基本介绍

最新推荐文章于 2023-11-23 21:01:57 发布

静静的喝酒

最新推荐文章于 2023-11-23 21:01:57 发布

阅读量445

点赞数

分类专栏：机器学习文章标签：机器学习聚类谱聚类 k-Means的缺陷无监督学习任务

本文链接：https://blog.csdn.net/qq_34758157/article/details/129135845

版权

机器学习笔记之谱聚类——谱聚类基本介绍

引言

引言

上一节介绍了 $\text{k-Means}$ 算法。本节从 $\text{k-Means}$ 算法的缺陷出发，介绍谱聚类。

回顾： $\text{k-Means}$ 算法及其缺陷

$\text{k}$ 均值算法( $\text{k-Means}$ )是一种处理聚类任务的非概率模型，它本质上属于高斯混合模型( $\text{Gaussian Mixture Model,GMM}$ )思想的硬划分模型。它的策略(目标函数)可表示为如下形式：
$\begin{cases} \mathbb E = \sum_{k=1}^{\mathcal K} \sum_{x \in C_k} \text{Dist}(x,\mu_k) \\ \mu_k = \frac{1}{|C_k|} \sum_{x \in C_k} x \end{cases}$
其中， $\mathcal K$ 表示样本聚类任务中簇的数量；针对簇集合 $\mathcal C = \{C_1,C_2,\cdots,C_{\mathcal K}\}$ ， $C_k|$ 表示簇 $C_k$ 中的样本数量；而 $\mu_k$ 表示簇 $C_k$ 的均值向量； $\text{Dist}(x,\mu_k)$ 则表示簇 $C_k$ 中某样本 $x$ 到均值向量的距离信息。

在 $\text{k-Means}$ 中，使用距离信息 $\text{Dist}(x,\mu_k)$ 描述样本点 $x$ 与簇 $C_k$ 之间的紧密程度。关于 $\text{k-Means}$ 算法的迭代过程，主要包含如下两个部分：

基于给定的聚类中心 $\mu = \{\mu_1,\mu_2,\cdots,\mu_{\mathcal K}\}$ ，对样本点进行聚类划分；
给定样本点聚类划分的条件下，重新计算聚类中心，并替代掉迭代前的中心结果；

直到聚类中心结果不再发生变化，即可停止算法。而各簇的聚类中心 $\mu_k(k=1,2,\cdots,\mathcal K)$ 采用各维度求解均值的方式进行计算。从高斯混合模型的角度思考，均值意味着对应高斯分布的位置，也就是以 $\mu_k$ 为中心向外扩散的高斯分布：
这里使用上一节的示例进行描述传送门
以聚类中心为核心的高斯分布
而 $\text{k-Means}$ 算法的缺陷在于：仅针对样本分布紧密的凸( $\text{Convex}$ )结构聚类形状可能有效，而针对连通型( $\text{Connectivity}$ )的簇分布效果欠佳。即便使用核方法( $\text{Kernel Method}$ )对样本特征提高维度，但这种方式依然存在一些缺陷。

依然以 $\text{sklearn}$ 中的 $make_circles \text{make\_circles}$ 样本分布为例：

blobs = datasets.make_circles(n_samples=n_samples, factor=0.5, noise=0.05)

在这里插入图片描述
不可否认，确实可以通过核函数提高维度 来实现聚类效果：
基于核函数+k-Means的聚类效果图
但 $\text{k-Means}$ 各聚类中心 $\mu$ 对应的作用空间可能是这个样子的：
这里只是效果图。
聚类中心——作用空间效果图描述
可以看出， $make_circles \text{make\_circles}$ 中的分布样本只不过是 $\text{k-Means}$ 作用空间分布中的一部分样本点，它并没有将 $make_circles \text{make\_circles}$ 样本中的连通性学习出来。

谱聚类

场景构建

由于处理的是无监督的聚类任务，因此数据集合仅包含样本特征 $\mathcal X$ ：
$\mathcal X = \left(x^{(1)},x^{(2)},\cdots,x^{(N)}\right)_{N \times p}^T \quad x^{(i)} \in \mathbb R^p;i=1,2,\cdots,N$

谱聚类结构介绍

谱聚类( $\text{Spectral clustering}$ )是一种针对连通型簇分布的聚类方法，它是一种基于加权无向图结构的模型。已知一个无向图结构表示如下：
谱聚类-无向图结构-示例
关于无向图结构 $\mathcal G$ 的描述表示如下：
$\mathcal G = \{\mathcal V,\mathcal E\}$
其中 $\mathcal V$ 表示结点集合，图结构中一共包含 $N$ 个结点，每一个样本均对应一个结点：
$\mathcal V = \{v^{(1)},v^{(2)},\cdots,v^{(N)}\}$
$\mathcal E$ 表示边集合，由于 $\mathcal G$ 是加权无向图，这意味着如果某对结点 $v^{(i)},v^{(j)})$