谱聚类（Spectral Clustering）原理及Python实现

最新推荐文章于 2025-03-21 10:14:07 发布

蕉叉熵

最新推荐文章于 2025-03-21 10:14:07 发布

阅读量4.8w

点赞数 51

分类专栏：机器学习文章标签：谱聚类

本文链接：https://blog.csdn.net/songbinxu/article/details/80838865

版权

谱聚类原理及Python实现

图模型

无向带权图模型 $G=<V,E>$ ，每一条边上的权重 $w_{ij}$ 为两个顶点的相似度，从而可以定义相似度矩阵 $W$ ，此外还可以定义度矩阵 $D$ 和邻接矩阵 $A$ ，从而有拉普拉斯矩阵 $L=D-A$ 。所以本文用到的矩阵总共两个： $L$ 和 $W$ 。

图的分割

一个图 $G$ 可能有很多个子图 $G_i$ （总共 $k$ 个），现在的任务是将大图分成若干小块，要求分法是最佳的。何为“最佳”呢，遍历每一个子图，计算一个切图惩罚，将他们加起来。式中的 $\hat{G}_i$ 表示子图 $G_i$ 的补集，代价函数 $C$ 计算的是连接两个子图之间的权重之和。

C o s t (G_{1}, \dots, G_{k}) = \sum_{i} C (G_{i}, {\hat{G}}_{i}) C (G_{1}, G_{2}) = \sum_{i \in G_{1}, j \in G_{2}} w_{i j}

$Cost(G_1,\cdots, G_k)=\sum_iC(G_i,\hat{G}_i)\\C(G_1,G_2)=\sum_{i\in G_1,j\in G_2} w_{ij}$

根据这个公式，对于下面这个图，假设点7和点8之间的权重值很小，那么很容易有红线所示的划分（假设二分），上面的代价函数计算出来的值很小。但显然绿色线所示才是最佳的分法。

距离度量与邻接矩阵

邻接矩阵某种程度上反映了图中各结点之间的相似性，普通的邻接矩阵元素非0即1，谱聚类中的邻接矩阵用KNN来计算。具体来说，遍历每一个结点 $x_i$ ，根据相似度（或距离）矩阵找出它的 $k$ 个最接近的点，构成 $x_i$ 的邻域 $N_i$ ，然后按以下规则之一构造邻接矩阵。

A i j = A j i = {0 exp - | | x i - x j | | 2 2 σ 2 x i \notin N j a n d x j \notin N i x i \in N j o r x j \in N i

$A_{ij}=A_{ji}=\left \{ \matrix{0 & x_i\notin N_j\ and x_j \notin \ N_i\\ \exp-\frac{||x_i-x_j||^2}{2\sigma^2} & x_i \in N_j \ or \ x_j \in N_i}\right.$

A i j = A j i = {0 exp - | | x i - x j | | 2 2 σ 2 x i \notin N j o r x j \notin N i x i \in N j a n d x j \in N i

$A_{ij}=A_{ji}=\left \{ \matrix{0 & x_i\notin N_j\ or \ x_j \notin \ N_i\\ \exp-\frac{||x_i-x_j||^2}{2\sigma^2} & x_i \in N_j \ and \ x_j \in N_i}\right.$