谱聚类的原理全网最详细的推导过程！！

孤嶋

已于 2024-01-08 17:07:35 修改

阅读量972

点赞数 23

文章标签：聚类机器学习谱聚类

于 2023-12-12 11:45:06 首次发布

本文链接：https://blog.csdn.net/Gaowang_1/article/details/134945661

版权

谱聚类

谱聚类思想

谱聚类的思想来源于图论，它把待聚类的数据集中的每一个样本看做是图中一个顶点，这些顶点连接在一起，连接的这些边上有权重，权重的大小表示这些样本之间的相似程度。同一类的顶点它们的相似程度很高，在图论中体现为同一类的顶点中连接它们的边的权重很大，不在同一类的顶点连接它们的边的权重很小。于是谱聚类的最终目标就是找到一种切割图的方法，使得切割之后的各个子图内的权重很大，子图之间的权重很小。

---------------------------------------------------------------------------------------------------------------------------------------

输入：样本集合 $X=\{x_1,x_2,...,x_N \}$ 、聚类数量K

输出：样本集合的聚类C*

优化问题：
$\underset{\{A_k\}_{k=1}^K}{min\ }Ncut(V)=\underset{\{A_k\}_{k=1}^K}{min\ }\sum_{k=1}^K\frac{W(A_k,\overline A_k)}{\sum_{i∈A_k}d_i}\\ \\ →\{A_k\}_{k=1}^K=arg \underset{\{A_k\}_{k=1}^K}{min\ }Ncut(V)=arg\underset{\{A_k\}_{k=1}^K}{min\ }\sum_{k=1}^K\frac{W(A_k,\overline A_k)}{\sum_{i∈A_k}d_i} \\ \\ →\hat Y=arg\ \underset{Y}{min}\sum_{k=1}^K\frac{y_k^TLy_k}{y_k^TDy_k}\\ \\ 这里y_k是Y的第k列\\ \\ Y∈R^{N×K},be\ the\ cluster\ indicator\ matrix,\\ in\ which\ y_{il}=1\ indicates\ that\ x_i\ is\ assigned\ to\ the\ l_{th}\ cluster.\\ \begin{cases} y_i ∈\{0,1\}^K \\ \\ \sum_{j=1}^Ky_{ij}=1 \\ \end{cases}\ \ \ \ \ \ \ \ \ y_i= \begin{bmatrix} y_{i1}\\ y_{i2}\\ ... \\ y_{iK} \end{bmatrix}$

$\underset{Y}{min}\ Tr(Y^TLY(Y^TDY)^{-1})\\ \\ \hat{Y}=arg\ \underset{Y}{min}\ Tr(Y^TLY(Y^TDY)^{-1}) \\ \\$

这里L=D-W是拉普拉斯矩阵

---------------------------------------------------------------------------------------------------------------------------------------

推导过程

符号说明：Graph-based（带权重的无向图）

样本数据： $\ X=(x_1,...,x_N)^\top$
无向图： $G=\{V,E\}$
顶点集： $V=\{1,2,...,N\}⇔X$
边集： $E:similarity\ \ matrix(affimty\ \ matrix)$

权重矩阵：W
$\begin{bmatrix} w_{11} & w_{12} & ... & w_{1N} \\ w_{21} & w_{22} & ... & w_{2N}\\ ... & ... & ... & ...\\ w_{N1} & w_{N2} & ... & w_{NN} \end{bmatrix} =[w_{ij}],1≤i,j≤N\\ \\ 其中w_{ij}= \begin{cases} K(x_i,x_j)=exp\{-\frac{||x_i-x_j||_2^2}{2\theta ^2} \} & \text{if } (i,j)∈E \\ \\ 0 & \text{if } (i,j)∉E \\ \end{cases}\\ \\$

顶点i的度: $d_i=\sum_{j=1}^Nw_{ij}$

度矩阵: $D=diag(W⋅\mathbf{1}_N)$
$D=diag(W⋅\mathbf{1}_N)= \begin{bmatrix} d_1 & 0 & ... & 0 \\ 0 & d_2 & ... & 0\\ ... & ... & ... & ...\\ 0 & 0 & ... & d_N \end{bmatrix}= \begin{bmatrix} \sum_{j=1}^Nw_{1j} & 0 & ... & 0 \\ 0 & \sum_{j=1}^Nw_{2j} & ... & 0\\ ... & ... & ... & ...\\ 0 & 0 & ... & \sum_{j=1}^Nw_{Nj} \end{bmatrix}\\ \\$
Laplacian Matrix: $L = D - W$

相关定义：

对于集合A和集合B,A和B是顶点集V的子集且A和B的交集为空,即:
$\\A \subset V,B \subset V,A\cap B=\emptyset\\ \\ →W(A,B)=\sum_{i∈A,j∈B} w_{ij}$
这个就是说对于A和B两个类别，计算一个类的节点到另一个类的节点所有边的权重和。

更严格的切图的定义如下：假如一共K个类别也就是将顶点集合分为K个子集合，即：

$V=∪_{k=1}^K A_k=A_1∪A_2∪A_3∪...∪A_K$
$Cut(V)=Cut(A_1,...,A_K)=\sum_{k=1}^K W(A_k,\overline A_k)=\sum_{k=1}^K W(A_k,V)-\sum_{k=1}^K W(A_k,A_k)$
我们的目标是 $\underset{\{A_k\}_{k=1}^K}{min}Cut(V)$ （切割之后的各个子图内的权重很大，子图之间的权重很小。），但是直接拿Cut作为目标函数会有问题，如下图我们选择一个权重最小的边缘的点，比如C和H之间进行cut，这样可以最小化 $Cut(A_1,A_2,...A_k)$ , 但是却不是最优的切图。

在这里插入图片描述

对Cut做一个normalize。

Ncut的定义：

除以度来做一个Normalize，度用 $degree(A_k)$ 表示。
$cut(V)=\sum_{k=1}^KW(A_k,\overline A_k)\\ \\ \\ →Ncut=\sum_{k=1}^K\frac{W(A_k,\overline A_k)}{\Delta}\\ \\ \Delta=degree(A_k)=\sum_{i∈A_k}d_i\ \ \ \ \ d_i=\sum_{j=1}^Nw_{ij}\\ \\ \\ →Ncut=\sum_{k=1}^K\frac{W(A_k,\overline A_k)}{\sum_{i∈A_k}d_i}\ \ \ \ \ d_i=\sum_{j=1}^Nw_{ij}\\ \\ \\ =\sum_{k=1}^K\frac{W(A_k,V)-W(A_k,A_k)}{\sum_{i∈A_k}d_i}\\ \\ \\ =\sum_{k=1}^K\frac{W(A_k,V)-W(A_k,A_k)}{\sum_{i∈A_k}\sum_{j=1}^Nw_{ij}}$

优化目标：
$\underset{\{A_k\}_{k=1}^K}{min\ }Ncut(V)$

Model
$\underset{\{A_k\}_{k=1}^K}{min\ }Ncut(V)=\underset{\{A_k\}_{k=1}^K}{min\ }\sum_{k=1}^K\frac{W(A_k,\overline A_k)}{\sum_{i∈A_k}d_i}\\ \\ \\ →\{A_k\}_{k=1}^K=arg \underset{\{A_k\}_{k=1}^K}{min\ }Ncut(V)=arg\underset{\{A_k\}_{k=1}^K}{min\ }\sum_{k=1}^K\frac{W(A_k,\overline A_k)}{\sum_{i∈A_k}d_i}$
引入指示向量indicator vector：
$\begin{cases} y_i ∈\{0,1\}^K \\ \\ \sum_{j=1}^Ky_{ij}=1 \\ \end{cases}\ \ \ \ \ \ \ \ \ y_i= \begin{bmatrix} y_{i1}\\ y_{i2}\\ ... \\ y_{iK} \end{bmatrix} \ \ \ \ \ \ \ \ \\ y_{ij}=1⇔第\ i个样本属于第\ j个类别$

$Y=[y_1,...y_K]^\top_{N×K}\\ \\ 将问题模型转换: \hat Y=arg \underset{\hat Y}{min}Ncut(V)$

目的是将问题模型转换: $\hat Y=arg \underset{\hat Y}{min}Ncut(V)$

将Ncut转换成矩阵的形式：
$Ncut=\sum_{k=1}^K\frac{W(A_k,\overline A_k)}{\sum_{i∈A_k}d_i}\\ \\ \\ =Tr \begin{bmatrix} \frac{W(A_1,\overline A_1)}{\sum_{i∈A_1}d_i} & 0 & ... & 0 \\ 0 & \frac{W(A_2,\overline A_2)}{\sum_{i∈A_2}d_i} & ... & 0\\ ... & ... & ... & ...\\ 0 & 0 & ... & \frac{W(A_K,\overline A_K)}{\sum_{i∈A_K}d_i} \end{bmatrix}\\ \\ \\ =Tr \begin{bmatrix} W(A_1,\overline A_1) & 0 & ... & 0 \\ 0 & W(A_2,\overline A_2) & ... & 0\\ ... & ... & ... & ...\\ 0 & 0 & ... & W(A_K,\overline A_K) \end{bmatrix} \begin{bmatrix} \sum_{i∈A_1}d_i & 0 & ... & 0 \\ 0 & \sum_{i∈A_2}d_i & ... & 0\\ ... & ... & ... & ...\\ 0 & 0 & ... & \sum_{i∈A_K}d_i \end{bmatrix}^{-1}$

$记O_{K×K}= \begin{bmatrix} W(A_1,\overline A_1) & 0 & ... & 0 \\ 0 & W(A_2,\overline A_2) & ... & 0\\ ... & ... & ... & ...\\ 0 & 0 & ... & W(A_K,\overline A_K) \end{bmatrix}\\ \\ \\ P_{K×K}= \begin{bmatrix} \sum_{i∈A_1}d_i & 0 & ... & 0 \\ 0 & \sum_{i∈A_2}d_i & ... & 0\\ ... & ... & ... & ...\\ 0 & 0 & ... & \sum_{i∈A_K}d_i \end{bmatrix}$

现在问题转化为： $\underset{\{A_k\}_{k=1}^K}{min}Ncut(V)=\underset{\{A_k\}_{k=1}^K}{min}Tr(OP^{-1})$

已知W、Y，求O、P，我们要将O和P用Y和W表示：

先求解P：
$Y^\top Y=[y_1,...y_N] \begin{bmatrix} y_{1}^T\\ y_{2}^T\\ ... \\ y_{N}^T \end{bmatrix}$
$=\sum_{i=1}^Ny_iy_i^T= \begin{bmatrix} N_1 & 0 & ... & 0 \\ 0 & N_2 & ... & 0\\ ... & ... & ... & ...\\ 0 & 0 & ... & N_K \end{bmatrix}_{K×K}$
$=\begin{bmatrix} \sum_{i∈A_1}1 & 0 & ... & 0 \\ 0 & \sum_{i∈A_2}1 & ... & 0\\ ... & ... & ... & ...\\ 0 & 0 & ... & \sum_{i∈A_K}1 \end{bmatrix}_{K×K}$

$N_k$ 的含义：在N个样本中，属于类别k的样本个数。 $\sum_{k=1}^NN_k=N,N_k=|A_k|=\sum_{i∈A_k}1$

$\sum_{i=1}^Ny_id_iy_i^T=y_1d_1y_1^T+y_2d_2y_2^T...+y_Nd_Ny_N^T=Y^TDY \\ \\ \\ P_{K×K}= \begin{bmatrix} \sum_{i∈A_1}d_i & 0 & ... & 0 \\ 0 & \sum_{i∈A_2}d_i & ... & 0\\ ... & ... & ... & ...\\ 0 & 0 & ... & \sum_{i∈A_K}d_i \end{bmatrix}=Y^TDY\\ \\ \\ 其中,D= \begin{bmatrix} d_1 & 0 & ... & 0 \\ 0 & d_2 & ... & 0\\ ... & ... & ... & ...\\ 0 & 0 & ... & d_N \end{bmatrix}=diag(W·\mathbf{1}_N)= \begin{bmatrix} \sum_{j=1}^Nw_{1j} & 0 & ... & 0 \\ 0 & \sum_{j=1}^Nw_{2j} & ... & 0\\ ... & ... & ... & ...\\ 0 & 0 & ... & \sum_{j=1}^Nw_{Nj} \end{bmatrix}\\ \\ \\$
所以我们求解的P为：

$P=Y^TDY\\ \\ \\ 其中,D=diag(W·\mathbf{1}_N)$
再求解O：

$O_{K×K}= \begin{bmatrix} W(A_1,\overline A_1) & 0 & ... & 0 \\ 0 & W(A_2,\overline A_2) & ... & 0\\ ... & ... & ... & ...\\ 0 & 0 & ... & W(A_K,\overline A_K) \end{bmatrix}\\ \\ \\ W(A_k,\overline{A_k})=\underbrace{W(A_k,V)}_{\sum_{i∈A_k}d_i}-\underbrace{W(A_k,A_k)}_{\sum_{i∈A_k}\sum_{j∈A_k}w_{ij}}\\ \\ \\ →O= \begin{bmatrix} \sum_{i∈A_1}d_i & 0 & ... & 0 \\ 0 & \sum_{i∈A_2}d_i & ... & 0\\ ... & ... & ... & ...\\ 0 & 0 & ... & \sum_{i∈A_K}d_i \end{bmatrix}- \begin{bmatrix} W(A_1,A_1) & 0 & ... & 0 \\ 0 & W(A_2, A_2) & ... & 0\\ ... & ... & ... & ...\\ 0 & 0 & ... & W(A_K, A_K) \end{bmatrix}\\ \\ \\$
前面的矩阵我们知道: $Y^TDY$ , 再来看后面部分:

$\begin{bmatrix} W(A_1,A_1) & 0 & ... & 0 \\ 0 & W(A_2, A_2) & ... & 0\\ ... & ... & ... & ...\\ 0 & 0 & ... & W(A_K, A_K) \end{bmatrix}$

$=\begin{bmatrix} \sum_{i∈A_1}\sum_{j∈A_1}w_{ij} & 0 & ... & 0 \\ 0 & \sum_{i∈A_2}\sum_{j∈A_2}w_{ij} & ... & 0\\ ... & ... & ... & ...\\ 0 & ... & ...& \sum_{i∈A_K}\sum_{j∈A_K}w_{ij} \end{bmatrix}$

猜想后半部分是否等于 $Y^TWY$ 验证一下：
$Y^TWY维度是K×K维\\ \\ \\ Y^TWY=[y_1,...y_N] \begin{bmatrix} w_{11} & w_{12} & ... & w_{1N} \\ w_{21} & w_{22} & ... & w_{2N}\\ ... & ... & ... & ...\\ w_{N1} & w_{N2} & ... & w_{NN} \end{bmatrix} \begin{bmatrix} y_{1}^T\\ y_{2}^T\\ ... \\ y_{N}^T \end{bmatrix}\\ \\ =[\sum_{i=1}^Ny_iw_{i1},...,\sum_{i=1}^Ny_iw_{Ni}] \begin{bmatrix} y_{1}^T\\ y_{2}^T\\ ... \\ y_{N}^T \end{bmatrix}\\ \\ =\sum_{i=1}^N\sum_{j=1}^Ny_iw_{ij}y_i^T=\sum_{i=1}^N\sum_{j=1}^Ny_iy_i^Tw_{ij}\\ \\ =\begin{bmatrix} \sum_{i∈A_1}\sum_{j∈A_1}w_{ij} & \sum_{i∈A_1}\sum_{j∈A_2}w_{ij} & ... & \sum_{i∈A_1}\sum_{j∈A_K}w_{ij} \\ \sum_{i∈A_2}\sum_{j∈A_1}w_{ij} & \sum_{i∈A_2}\sum_{j∈A_2}w_{ij} & ... & \sum_{i∈A_2}\sum_{j∈A_K}w_{ij}\\ ... & ... & ... & ...\\ \sum_{i∈A_K}\sum_{j∈A_1}w_{ij} & \sum_{i∈A_K}\sum_{j∈A_2}w_{ij} & ... & \sum_{i∈A_K}\sum_{j∈A_K}w_{ij} \end{bmatrix}$
观察上式和O的后半部分：
$\begin{bmatrix} \sum_{i∈A_1}\sum_{j∈A_1}w_{ij} & 0 & ... & 0 \\ 0 & \sum_{i∈A_2}\sum_{j∈A_2}w_{ij} & ... & 0\\ ... & ... & ... & ...\\ 0 & ... & ...& \sum_{i∈A_K}\sum_{j∈A_K}w_{ij} \end{bmatrix} \\ \\ \\$

$\begin{bmatrix} \sum_{i∈A_1}\sum_{j∈A_1}w_{ij} & \sum_{i∈A_1}\sum_{j∈A_2}w_{ij} & ... & \sum_{i∈A_1}\sum_{j∈A_K}w_{ij} \\ \sum_{i∈A_2}\sum_{j∈A_1}w_{ij} & \sum_{i∈A_2}\sum_{j∈A_2}w_{ij} & ... & \sum_{i∈A_2}\sum_{j∈A_K}w_{ij}\\ ... & ... & ... & ...\\ \sum_{i∈A_K}\sum_{j∈A_1}w_{ij} & \sum_{i∈A_K}\sum_{j∈A_2}w_{ij} & ... & \sum_{i∈A_K}\sum_{j∈A_K}w_{ij} \end{bmatrix}$

我们发现，这两个矩阵对角线元素是相同的，又因为我们是对迹求最小，即只考虑对角线的元素。所以将O的后半部分换成$Y^TWY $并不影响我们的结果

记 $O'=Y^TDY - Y^TWY$ 那么 $O^{'} P$ 相当于对 $O^{'}$ 的对角线做一些变化。那么就有 $T r (OP) = T r (O^{'} P)$ 。

至此我们解出了 $O$ ，并且提出了用 $O^{'}$ 代替 $O$ 可以达到同样的目的。
$O'=Y^TDY-Y^TWY$

我们最终的优化问题变为：
$\hat Y=arg \underset{\hat Y}{min}\ Tr(Y^T(D-W)Y(Y^TDY)^{-1})\\ \\ \\ =\hat Y=arg \underset{\hat Y}{min}\ Tr(Y^TLY(Y^TDY)^{-1})\\ \\ 这里L=D-W是拉普拉斯矩阵$

To minimaze $Tr(Y^T LY(Y^T DY)^{-1})$

$Tr(Y^T LY(Y^T DY)^{-1})$

其中 $Y∈R^{N×K}$ ，每一行是ONE-HOT，表示第i行属于哪一类。 $Y$ 形如：
$\begin{bmatrix} 0 & ...& 0 & 1 & 0 &... & 0 \\ 0 & ...&1 & 0 & 0 &... & 0\\ ... & ...& ... & ... & ... & ... & ...\\ 0 & ...& 0 & 0 & 0 &... & 1\\ 1 & ...&0 & 1 & 0 &... & 0 \end{bmatrix}$
记：
$P=Y^TDY=diag(\sum_{i∈A_1}d_i,\sum_{i∈A_2}d_i,...,\sum_{i∈A_K}d_i)=diag(p_1,p_2,...,p_k)\\ \\ 原式=Tr(Y^TLYP^{-1})=Tr(Y^TLYP^{-\frac12}P^{-\frac12})=Tr(P^{-\frac12}Y^TLYP^{-\frac12})$
记：
$H=YP^{-\frac12},H^T=P^{-\frac12}Y^T\\ \\ H^TH=P^{-\frac12}Y^TYP^{-\frac12}=P^{-\frac12}IP^{-\frac12}=P^{-1}$

$原式=Tr(H^TLH)$
定理1：

对于半正定矩阵L，特征值（eigenvalue）： $0≤\lambda_1≤\lambda_2≤...≤\lambda_n$

特征基（eigbasis）： $\{\overline v_1,\overline v_2,...,\overline v_n\}$ →Orthonormal，标准正交化之后的特征向量

当 $\mathbf{x}∈R^{N},and\ \ \mathbf{x}^T\mathbf{x}=\mathbf{1}$ 时， $\mathbf{x}^TL\mathbf{x}$ 的最小值在 $\mathbf{x}=\overline v_1$ 时取到。

proof：
$\mathbf{x}可以用eigbasis表示, \ 因为eigbasis是orthonormal\\ \\ \mathbf{x}=c_1\overline v_1+c_2\overline v_2+...+c_n\overline v_n\\ \\ L\mathbf{x}=\lambda \mathbf{x}=c_1\lambda_1\overline v_1+c_2\lambda_2\overline v_2+...+c_n\lambda_n\overline v_n\\ \\ →\mathbf{x}^TL\mathbf{x}=c_1^2\lambda_1+c_2^2\lambda_2+...+c_n^2\lambda_n\\ \\ 因为\mathbf{x}^T\mathbf{x}=\mathbf{1}→c_1^2+c_2^2+...+c_n^2\\ \\ →\mathbf{x}^TL\mathbf{x}=c_1^2\lambda_1+c_2^2\lambda_2+...+c_n^2\lambda_n≥\lambda_1\\ 当c_1^2=1,c_i=0,i≠1时等号成立⇔\mathbf{x}=\overline v_1\ \ or\ \ \mathbf{x}=-\overline v_1$
定理2：

对于半正定矩阵L，特征值（eigenvalue）： $0≤\lambda_1≤\lambda_2≤...≤\lambda_n$

特征基（eigbasis）： $\{\overline v_1,\overline v_2,...,\overline v_n\}$ →Orthonormal，标准正交化之后的特征向量

当 $F∈R^{N×K},\ and\ F^TF=I$ 时， $Tr(F^TLF)$ 的最小值在 $F=[\overline v_1,\overline v_2,...,\overline v_K]$ 时取到

proof:
$Denote\ \ \ F=[f_1,f_2,...,f_K]\\ \\ Tr(F^TLF)=\sum_{i=1}^Kf_i^TLf_i\\ \\ 由于定理2\ \ \ f_1=\overline v_1 , f_2=\overline v_2,...,f_n=\overline v_n 时,Tr(F^TLF)最小$
因为 $F^TF=I$ ，所以F是orthonormal matrix，故不能每列都是 $\overline v_1$

原始优化问题 $Tr(H^TLH)$ 并没有 $H^TH=I$ 的性质，无法用定理2，于是对H做一些变换。

$H^TDH=P^{-\frac12}Y^TDYP^{-\frac12}=P^{-\frac12}PP^{-\frac12}=I\\ 记F=D^{\frac12}H→F^TF=(D^{\frac12}H)^TD^{\frac12}H=H^TD^{\frac12}D^{\frac12}H=H^TDH=I\\ \\ 则H=D^{-\frac12}F\\ \\ →Tr(H^TLH)=Tr(F^TD^{-\frac12}LD^{-\frac12}F),\ \ \ \ F^TF=I$
至此我们得到最终的优化目标：
$\underset{F}{min}\ Tr(F^TD^{-\frac12}LD^{-\frac12}F),\ \ \ \ \\ s.t.F^TF=I$
在解出的F上再做一次k-means，最终求得Y

孤嶋

关注

23
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
谱聚类的原理全网最详细的推导过程！！

谱聚类谱聚类算法流程：input:   X={x1,x2,...,xn}  output:   C={c1,c2,...ck2}   （1）根据输入的相似矩阵生成方式构建样本的相似矩阵S（2）根据相似矩阵S构建邻接矩阵W，构建度矩阵D       （3）计算出拉普拉斯矩阵L    &nb
复制链接

扫一扫