【机器学习】谱聚类原理推导

篝火者2312

已于 2023-11-27 09:12:44 修改

阅读量299

点赞数 1

分类专栏：笔记机器学习、人工智能文章标签：机器学习人工智能算法聚类

于 2023-11-27 09:09:06 首次发布

本文链接：https://blog.csdn.net/sdksdf/article/details/134637065

版权

机器学习、人工智能同时被 2 个专栏收录

61 篇文章

订阅专栏

笔记

60 篇文章

订阅专栏

一、前言

本文将介绍一种较为突出的聚类算法——谱聚类。这是一种基于图模型的算法。有过图论或者数据结构基础的人估计会相对来说觉得容易。能力有限，推导并不严谨，请见谅。代码谱聚类代码实现

二、相关知识

2.1、无向图

在这里插入图片描述

无向图，由两个要素构成——节点和边。以上面的无向图为例

节点，我们定义为 $V=\{A,B,C,D,E\}$ 。边定义为 $E=\{w_1,w_2,w_3,w_4,w_5\}$ 对应图中的w1…。

所谓边，就是两个点之间的关联性，一般情况下，关联性越高，所连接的边 $w$ 就越高。

在谱聚类中，我们的一个样本点就是一个节点，那么如果我们有n个样本，那就有n个节点。样本之间的相关性就是用 $w$ 来衡量。既然是聚类，那自然就是相关性越高，则越能聚成一类。

2.2、邻接矩阵

前面我们讲到，某个节点与某个节点之间连接的值用 $w$ 来表示。那有没有一种东西，能够充分表达所有点之间的关系？有，就是邻接矩阵。比如图中就可以表示为（无连接我们暂时用0表示）
$W=\left[\begin{array}{c|ccccc} &A &B &C &D &E\\\hline A & 0 & w_1 & w_2 & 0 & 0\\ B & w_1 & 0 & 0 & w_3 & 0\\ C & w_2 & 0 & 0 & 0 & w_4\\ D & 0 & w_3 & 0 & 0 & w_5\\ E & 0 & 0 & 0 & w_4 & w_5 \end{array}\right]_{5\times5}$
比如节点A，它与B，C有连接，所以在B，C列有值，其余都为0。以此类推。

如果有n个样本，那么它就是一个 $n\times n$ 的方阵。所以我们可以表示成这样
$W=\begin{bmatrix} w_{11} & w_{12} & \cdots & w_{1n}\\ w_{21} & w_{22} & \cdots & w_{2n}\\ \vdots & \vdots & \ddots & \vdots\\ w_{n1} & w_{n2} & \cdots & w_{nn} \end{bmatrix}_{n\times n}$

2.3、度

度，意为某个节点所有相连的边的总和。比如图中的节点A，它的度 $d=w_1+w_2$ 。如果有n个样本，那么第 $i$ 个样本的度可以表示为
$d_i=\sum\limits_{j=1}^nw_{ij}$
其实就等于邻接矩阵的第 $i$ 行求和

那我们又该如何表示所有的节点的度呢？我们用 $D$ 表示
$D=\begin{bmatrix} d_1 & 0 & 0 & \cdots \\ 0 & d_2 & 0 & \cdots \\ \vdots & \vdots &\ddots & \vdots\\ 0 & 0 & \cdots & d_n \end{bmatrix}_{n\times n}$
其实就是一个对角矩阵（主对角线有值，其余都为0）。所以每个样本的都对应矩阵 $D$ 中的一个度。

2.4、核函数

我们如何去构造邻接矩阵 $W$ ，构造点与点之间的联系？

$\boxed{我们仅介绍一种较为普遍的方法}$ ——全连接法，即两个点中间的关系表示为
$w_{ij}=\exp\left\{-\frac{||x_i-x_j||_2^2}{2\sigma^2}\right\}$
分子处为L2范数，其实这就是高斯核函数的定义。同样的，你也可以选择其他核函数。

通过此法，我们便可以构造出邻接矩阵 $W$ ，由 $W$ 可得出矩阵 $D$ 。

2.5、拉普拉斯矩阵

定义 $L = D - W$ 。由这个算出来的矩阵 $L$ 被称为拉普拉斯矩阵。

拉普拉斯矩阵的性质：

①拉普拉斯矩阵是半正定矩阵。

②特征值中0出现的次数就是图连通区域的个数。

③最小特征值是0，因为拉普拉斯矩阵每一行的和均为0。

并且，拉普拉斯矩阵还有一个性质—— $\boxed{对任意一个n维y向量，有y^TLy=\frac{1}{2}\sum\limits_{i=1}^n\sum\limits_{j=1}^nw_{ij}(y_i-y_j)^2}$

证明：
$\begin{align} y^TLy=&y^TDy-y^TWy\tag{1} \\=&\sum\limits_{i=1}^nd_iy_i^2-\sum\limits_{i=1}^n\sum\limits_{j=1}^nw_{ij}y_iy_j\tag{2} \\=&\frac{1}{2}\left( \sum\limits_{i=1}^nd_iy_i^2-2\sum\limits_{i=1}^n\sum\limits_{j=1}^nw_{ij}y_iy_j+\sum\limits_{j=1}^nd_jy_j^2 \right)\tag{3} \\=&\frac{1}{2}\left(\sum\limits_{i=1}^n\sum\limits_{j=1}^nw_{_{ij}}y_i^2-2\sum\limits_{i=1}^n\sum\limits_{j=1}^nw_{ij}y_iy_j+\sum\limits_{j=1}^n\sum\limits_{i=1}^nw_{_{ji}}y_j^2\tag{4} \right) \\=&\frac{1}{2}\sum\limits_{i=1}^n\sum\limits_{j=1}^nw_{ij}(y_i-y_j)^2\tag{5} \end{align}$
式（3）到式（4）用到 $d_i=\sum\limits_{j=1}^nw_{ij}$ 。式（4）到式（5）用到平方差公式。

三、原理推导

3.1、目标

在这里插入图片描述

一个节点就是一个样本。我们要在这张无向图中切一刀，然后得到两部分。比如上图中，用虚线切开，得到两部分。我们就认为上半部分为一类。下半部分为一类。

显然，如何砍这一刀是至关重要的。我们定义砍一刀的代价 $\boxed{目标是砍一刀的代价最小}$
$W(A,B)=\sum\limits_{i\in A}\sum\limits_{j\notin B}w_{ij}$
比如按照上面的无向图，上半部分记为A集合，下半部分记为B集合。那么代价就是a节点与B集合所有点的w（仅有w2，其余为0）加上b节点与B集合所有点的w（仅有w3，其余为0）。所以代价就是 $w_2+w_3$ 。

以此类推，如果要聚成k类，定义代价函数（ $\frac{1}{2}$ 是因为不同类别之间会重复计算代价，故如此）
$Cut(A_1,A_2,\cdots,A_k)=\frac{1}{2}\sum\limits_{i=1}^kW(A_i,\bar{A_i})$
$\bar{A_i}$ 表示不属于第i类的节点集合。

然而，这种形式的代价有问题，求解的时候算法会趋向于将权重w小的单个节点作为一类，这是我们很不想要的。为此我们必须做出整改。

有两种方案： $\boxed{①RatioCut}$ 、 $\boxed{NCut}$ 。

3.2、RatioCut

定义 $A_i|$ 表示 $i$ 集合的节点个数。比如上图中的上半部分集合A，只有节点 $a, b$ ，我们就得到 $∣ A ∣ = 2$ 。

我们将代价函数变成这样
$RatioCut(A_1,A_2,\cdots,A_k)=\frac{1}{2}\sum\limits_{i=1}^k\frac{W(A_i,\bar{A_i})}{|A_i|}$
也就是要最小化这个代价函数
$\arg\min\limits_{A_i} RatioCut(A_1,A_2,\cdots,A_k)=\arg\min\limits_{A_i} \frac{1}{2}\sum\limits_{i=1}^k\frac{W(A_i,\bar{A_i})}{|A_i|}$
这种用集合来表达的形式我们是没办法去求解的。因此，我们换一种表达方式。对于每一个样本，我们都定义一个k维的指示向量。
$y=\left\{\begin{matrix} \frac{1}{\sqrt|A_i|} & j\in A_i \\ 0 & j\notin A_i &j\in\{1,2,\cdots,k\} \end{matrix}\right.$
意思是如果这个样本属于第 $i$ 类，那么对应位置就有值，否则为0。

比如对于第1个样本，假设它属于第二类：第二个样本属于第三类。则有
$y_1=\begin{pmatrix} 0 \\ \frac{1}{\sqrt|A_2|} \\ 0 \\ \vdots \\ 0 \end{pmatrix}_{k\times1}; y_2=\begin{pmatrix} 0 \\ 0 \\ \frac{1}{\sqrt|A_3|} \\ \vdots \\ 0 \end{pmatrix}_{k\times1};$
以此类推，所有的样本，用 $Y$ 表示
$Y=\begin{pmatrix} y_1^T \\ y_2^T \\ \vdots \\y_n^T \end{pmatrix}=\begin{bmatrix} y_{11} & y_{12} & \cdots & y_{1k} \\ y_{21} & y_{22} & \cdots & y_{2k} \\ \vdots & \vdots & \ddots & \vdots \\ y_{n1} & y_{n2} & \cdots & y_{nk} \end{bmatrix}_{n\times k}$
所以我们的目标就是
$\arg\min\limits_{Y} \frac{1}{2}\sum\limits_{i=1}^k\frac{W(A_i,\bar{A_i})}{|A_i|}$
同样的，里面的目标函数我们也要换成Y的表达形式

对于矩阵 $Y$ ，第 $m$ 列中不为0的部分，就是属于第 $m$ 类的样本。我们用 $y_{m}$ 表示 $Y$ 的第 $m$ 列
$\begin{align} y_{m}^TLy_{m}=&\frac{1}{2}\sum\limits_{i=1}^n\sum\limits_{j=1}^nw_{ij}(y_{mi}-y_{mj})^2\tag{1} \\=&\frac{1}{2}\left( \sum\limits_{i \in A_{m}}\sum\limits_{j \notin A_{m}}w_{ij}(\frac{1}{\sqrt{|A_{m}|}}-0)^2+\sum\limits_{i \notin A_{m}}\sum\limits_{j \in A_{m}}w_{ij}(0-\frac{1}{\sqrt{|A_{m}|}})^2+\sum\limits_{i \in A_{m}}\sum\limits_{j \in A_{m}}w_{ij}(0-0)^2 \right)\tag{2} \\=&\frac{1}{2}\left( \sum\limits_{i \in A_{m}}\sum\limits_{j \notin A_{m}}w_{ij}\frac{1}{|A_{m}|}+\sum\limits_{i \notin A_{m}}\sum\limits_{j \in A_{m}}w_{ij}\frac{1}{|A_{m}|} \right)\tag{3} \\=&\frac{1}{2}\left( \frac{Cut(A_m,\bar{A}_m)}{|A_m|}+\frac{Cut(A_m,\bar{A}_m)}{|A_m|} \right)\tag{4} \\=&\frac{Cut(A_m,\bar{A}_m)}{|A_m|}\nonumber \end{align}$
式（1）用到了上面拉普拉斯矩阵的性质。式（2）用到了指示向量。式（3）到式（4）用到了代价函数

发现了吗，它刚好等于我们第 $m$ 类的代价。

我们再将原目标函数转化成矩阵的形式
$\begin{align} \frac{1}{2}\sum\limits_{i=1}^k\frac{W(A_i,\bar{A_i})}{|A_i|} =&\sum\limits_{i=1}^k\frac{Cut(A_i,\bar A_i)}{|A_i|} \\=&\mathbb{Tr}\begin{bmatrix} \frac{Cut(A_1,\bar{A_1})}{|A_1|} & 0 & \cdots & 0\\ 0 & \frac{Cut(A_2,\bar{A_2})}{|A_2|} & \cdots & 0\\ \vdots & \vdots & \ddots & \vdots\\ 0 & 0 & \cdots & \frac{Cut(A_k,\bar{A_k})}{|A_k|} \end{bmatrix}_{k\times k} \\=&\mathbb{Tr}\begin{bmatrix} y_{1}^TLy_{1} & 0 & \cdots & 0\\ 0 & y_{2}^TLy_{2} & \cdots & 0\\ \vdots & \vdots & \ddots & \vdots\\ 0 & 0 & \cdots & y_{k}^TLy_{k} \end{bmatrix}_{k\times k} \end{align}\tag{5}$
$\mathbb{Tr}$ 表示求矩阵的迹（也就是对角线求和）。里面是一个对角矩阵。

又因为（对这里不熟悉的，读者可自行尝试，在这里就不展开了）
$\begin{align} Y^TLY=&\begin{bmatrix} y_1^TLy_1 & y_1^TLy_2 & \cdots & y_1^TLy_k\\ y_2^TLy_1 & y_2^TLy_2 & \cdots & y_2^TLy_k \\ \vdots & \vdots & \ddots & \vdots \\ y_k^TLy_1 & y_k^TLy_2 & \cdots &y_k^TLy_k \end{bmatrix}_{k\times k} \end{align}\tag{6}$

所以，很容易看到，式（5）和式（6）的对角线是一致的， $\boxed{那么我们就得到目标函数:}$
$\begin{align} \arg\min\limits_{Y}\frac{1}{2}\sum\limits_{i=1}^k\frac{W(A_i,\bar{A_i})}{|A_i|}=\arg\min\limits_{Y}\mathbb{Tr}(Y^TLY)\nonumber \end{align}$

3.3、求解

有了目标表达式，接下来就是求解，但是还有个问题，就是矩阵 $Y$ 的每一行是一个指示向量，由这个可得
$Y^TY=\mathbb{I}$
$\mathbb{I}$ 是单位矩阵，比如我以开头的图构造矩阵 $Y$ ，我们切的那刀分成了两份，可得
$Y^TY=\begin{bmatrix} \frac{1}{\sqrt{2}} & \frac{1}{\sqrt{2}} & 0 & 0 & 0 \\ 0 & 0 & \frac{1}{\sqrt{3}} & \frac{1}{\sqrt{3}} & \frac{1}{\sqrt{3}} \end{bmatrix}\begin{bmatrix} \frac{1}{\sqrt{2}} & 0 \\ \frac{1}{\sqrt{2}} & 0 \\ 0 & \frac{1}{\sqrt{3}} \\ 0 & \frac{1}{\sqrt{3}} \\0 & \frac{1}{\sqrt{3}} \end{bmatrix}=\begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix}$
并且，因为指示向量是离散的。我们是没办法去求导，一般情况下，我们会忽略掉这个指示向量这个约束，而保留 $Y^TY=\mathbb{I}$

$\boxed{所以我们的问题就变成了}$
$\begin{aligned} \arg\min\limits_{Y}\mathbb{Tr}&(Y^TLY) \\s.t. \hspace{1cm}& Y^TY=\mathbb{I} \end{aligned}$

3.3.1、拉格朗日乘数法

由于 $Y$ 难以求解，所以我们对 $Y$ 的每一列进行求导求解，又因为 $\mathbb{Tr}(Y^TLY)=\sum\limits_{i}^ky_i^TLy_i$ ，所以只要每一个最小，那么最后求和也就是最小。但是这种情况其实仅是一个近似解罢了，实际上并不一样，只是由于 $Y$ 太难求了，所以退而求其次。

所以最终的目标函数为
$\begin{aligned} \arg\min\limits_{y_i}&(y_i^TLy_i) \\s.t. \hspace{1cm}& y_i^Ty_i=1 \end{aligned}$
约束条件由 $Y^TY=\mathbb{I} \rightarrow y_i^Ty_i=1$ 得到

构造拉格朗日函数
$L(y_i,\lambda)=y_i^TLy_i+\lambda(1-y_i^Ty_i)$
在这里给出两个求导公式，不懂的可直接背，对其原理感兴趣自行百度查阅
$\boxed{\frac{dx^TAx}{x}=2Ax，其中A为对称阵，x为列向量}\\ \boxed{\frac{dx^Tx}{x}=2x，x为列向量}$
对 $y_i$ 求导
$\begin{aligned} \frac{\partial L(y_i,\lambda)}{\partial y_i}=&2Ly_i-2\lambda y_i \\=&Ly_i-\lambda y_i \end{aligned}$
令其为0得
$Ly_i=\lambda y_i$

如果你对特征值和特征向量敏感，便一眼可以看出来，此时的 $\lambda$ 就是特征值，而 $y_i$ 就是特征向量。

式子左右左乘 $y_i^T$ 得
$y_i^TLy_i=\lambda y_i^Ty_i=\lambda$
左边不就是我们的目标函数吗？要最小化它，不就是最小化 $\lambda$ ？而 $\lambda$ 又是拉普拉斯矩阵的特征值。

所以，我们是否可以这么想，对于 $Y$ 的每一列，我们都用拉普拉斯矩阵的特征向量组成，而特征向量的组成便是由前k个特征值（升序）所对应的特征向量。

3.3.2、重离散化

前面我们提到，我们是忽略了指示向量那个离散约束，使得y的取值为全体实数。所以最后我们得出来的 $Y$ 值它也是在全体实数当中的，难以判定它属于哪一类。

所以，我们可以直接在矩阵 $Y$ 当中按行作为样本，使用传统的聚类算法（比如k-mean），实现最终的聚类。

3.4、NCut

弄懂了RatioCut，NCut其实也懂了一半了。

同样的，我们定义
$vol(A_i)=\sum\limits_{i \in A_i}d_i$
也就是对于类别为 $A_i$ 的集合，集合内所有的节点的度的总和。

而我们的代价函数则定义为
$NCut(A_1,A_2,\cdots,A_k)=\frac{1}{2}\sum\limits_{i=1}^k\frac{W(A_i,\bar{A_i})}{vol(A_i)}=\sum\limits_{i=1}^k\frac{Cut(A_i,\bar{A_i})}{vol(A_i)}$
对于我们每一个样本的指示向量，定义为
$y=\left\{\begin{matrix} \frac{1}{\sqrt{vol(A_i)}} & j\in A_i \\ 0 & j\notin A_i &j\in\{1,2,\cdots,k\} \end{matrix}\right.$
同样有（推导过程与RatioCut同，不再赘述）
$y_i^TLy_i=\frac{Cut(A_i,\bar{A_i})}{vol(A_i)}$
所以，同样的都有
$NCut(A_1,A_2,\cdots,A_k)=\mathbb{Tr}(Y^TLY)$
但是，此时 $Y^TY\neq\mathbb{I}$ ，而是
$Y^TDY=\mathbb{I}$
证明 $\boxed{y_i仍然代表Y的第i列}$ ：
$\begin{align} y_i^TDy_i=&\sum\limits_{j=1}^ny_{ij}^2d_j\tag{1} \\=&\sum\limits_{j\in A_i}\frac{1}{vol(A_i)}d_j\tag{2} \\=&\frac{1}{vol(A_i)}\sum\limits_{j\in A_i}d_i\tag{3} \\=&\frac{1}{vol(A_i)}vol(A_i)\tag{4} \\=&1\tag{5} \end{align}$
式子（1）将矩阵展开可得，式子（2）利用指示向量，式子（4）利用了前面定义的 $vol(A_i)$ 。

因为 $y_i^TDy_i$ 和指示向量的定义，可得 $Y^TDY=\mathbb{I}$ 。

所以，目标函数就变成了
$\begin{aligned} &\arg\min\limits_{Y}\mathbb{Tr}(Y^TLY) \\&s.t.\hspace{1cm}Y^TDY=\mathbb{I} \end{aligned}$
由于 $y_i^Ty_i\neq1$ ，所以我们没办法像RatioCut那样去解决。所以我们不妨对这个式子进行一下转化。

令 $Y=D^{-\frac{1}{2}}F$ ，所以
$\begin{aligned} \arg\min_{F} (Y^TLY)=&\arg\min_{F}\mathbb{Tr}(F^TD^{-\frac{1}{2}}LD^{-\frac{1}{2}}F) \\&s.t. \hspace{1cm} F^TF=\mathbb{I} \end{aligned}$
所以，我们只需要将 $D^{-\frac{1}{2}}LD^{-\frac{1}{2}}$ 当作原来的 $L$ 即可，那么这样一切便都是照常即可。

同样我们一样一列一列地看（假设某一列为f）
$\begin{aligned} &\arg\min_{f}(f^TD^{-\frac{1}{2}}LD^{-\frac{1}{2}}f) \\&s.t. \hspace{1cm} f^Tf=1 \end{aligned}$
构造拉格朗日函数
$L(f,\lambda)=f^TD^{-\frac{1}{2}}LD^{-\frac{1}{2}}f+\lambda(1-f^Tf)$
对f求导
$\begin{aligned} \frac{\partial L(f,\lambda)}{\partial f}=2(D^{-\frac{1}{2}}LD^{-\frac{1}{2}})f-2\lambda f \end{aligned}$
令其等于0，得
$(D^{-\frac{1}{2}}LD^{-\frac{1}{2}})f=\lambda f$
所以，一样的，我们只需要求出 $D^{-\frac{1}{2}}LD^{-\frac{1}{2}}$ 的前k个最小值。然后组成矩阵F。不同的是， $\boxed{NCut需要将得到的F按行按行归一化}$ ，再用传统聚类方法聚类即可。