【机器学习降维】拉普拉斯矩阵与谱聚类

最新推荐文章于 2022-04-09 10:22:48 发布

Mankind_萌凯

最新推荐文章于 2022-04-09 10:22:48 发布

阅读量1.9k

点赞数 1

分类专栏：机器学习之旅文章标签：拉普拉斯矩阵谱聚类瑞利熵广义瑞利熵

本文链接：https://blog.csdn.net/Hemk340200600/article/details/86687630

版权

机器学习之旅专栏收录该内容

33 篇文章 2 订阅

订阅专栏

文章目录

1.拉普拉斯矩阵
- 1.1 简介
- 1.2 性质
2. 瑞利熵
3.广义瑞利熵
4.谱聚类
4. Laplacian Eigenmaps

1.拉普拉斯矩阵

1.1 简介

拉普拉斯矩阵（Laplacian matrix），也称为基尔霍夫矩阵, 是表示图的一种矩阵。给定一个有n个顶点的图G=(V,E),其拉普拉斯矩阵定义为：
$L = D - W$
其中W为图G的邻接矩阵，一个 $\times N$ 的矩阵，记录每个点与其他点是否相邻，相邻则对应的位置置1。D为图G的度矩阵，将W矩阵的每一列相加后放在对角上，就得到了度矩阵D，它只有对角线上的值非0。拉普拉斯矩阵定义为L=D-W，若 $W=\begin{bmatrix} 0 & 1 & 0 & 0 \\ 1 & 0 & 1 & 0 \\ 0 & 1 & 0 & 1 \\ 0 & 0 & 1 & 0\end{bmatrix}$ ，则 $D=\begin{bmatrix} 1 & 0 & 0 & 0 \\ 0 & 2 & 0 & 0 \\ 0 & 0 & 2 & 0 \\ 0 & 0 & 0 & 1\end{bmatrix}$ ，其拉普拉斯矩阵 $L=\begin{bmatrix} 1 & -1 & 0 & 0 \\ -1 & 2 & -1 & 0 \\ 0 & -1 & 2 & -1 \\ 0 & 0 & -1 & 1\end{bmatrix}$ 。

1.2 性质

拉普拉斯矩阵L的性质如下：

L是对称半正定矩阵
L的最小特征值为0，对应的特征向量为 $\vec 1$ （对L做初等行变化易知矩阵L不满秩，从而存在特征值0，将每一行相加得到0，从而特征向量为全1向量）
L有n个非负实特征值。
对任何一个实向量f，有 $f'Lf=\frac{1}{2}\sum_{i,j=1}^Nw_{ij}(f_i-f_j)^2$ 成立。

性质4的证明如下：
$\begin{aligned} f'Lf &=f'Df-f'Wf=\sum_{i=1}^Nd_if_i^2-\sum_{i,j=1}^Nf_if_jw_{ij}\\ &=\frac{1}{2}\left(\sum_{i=1}^Nd_if_i^2+\sum_{j=1}^Nd_jf_j^2-2\sum_{i,j=1}^Nf_if_jw_{ij}\right)\\ &=\frac{1}{2}\sum_{i,j=1}^Nw_{ij}(f_i-f_j)^2 \end{aligned}$

2. 瑞利熵

$R(A,x)=\frac{x^TAx}{x^Tx}$
x是一个向量，A是一个共轭对称矩阵，有 $A_{ij}=A_{ji}^*$ ，如果A是实矩阵，则 $A^T=A$ 。该式子的特点是最大值和最小值分别等于矩阵A最大和最小的特征值。即
$\lambda_{min} \le R(A,x) \le \lambda_{max}$
由于 $x^Tx$ 是一个数，若要求R(A,x)的最大值，可以看成是
$\max {R(A,x)}=\max x^TAx \quad s.t. \quad x^Tx=c$
用拉格朗日乘子法求得极值，其过程如下：
$J(x)=x^TAx-\lambda(x^Tx-c) \\ \frac{\partial J(x)}{\partial x}=0 →Ax=\lambda x \\ R(A,x)=\frac{x^TAx}{x^Tx}=\frac{x^T\lambda x}{x^Tx}=\lambda$
此时x为矩阵A的特征值 $\lambda$ 对应的特征向量，根据上述推导可知R(A,x)的最大值就是A的最大特征值，最小值就是A的最小特征值，对应的解就是对应的特征向量。

3.广义瑞利熵

$R(A,B,x)=\frac{x^TAx}{x^TBx}$
x是一个向量，A,B分别是共轭对称矩阵。同瑞利熵的推导，用拉格朗日乘子法求得极值，其过程如下：
$J(x)=x^TAx-\lambda(x^TBx-c) \\ \frac{\partial J(x)}{\partial x}=0 →Ax=\lambda Bx \\$
令 $x=B^{-1/2}f$
有
$AB^{-1/2}f=\lambda B^{1/2}f \iff B^{-1/2}AB^{-1/2}f=\lambda f$
于是，经过一步转换后，广义瑞利熵又可以转换为瑞利熵的形式
$R(A,B,x)=\frac{x^TAx}{x^TBx}=\frac{f^T(B^{-1/2}AB^{-1/2})f}{f^Tf}=\frac{f^T\lambda f}{f^Tf}=\lambda$

4.谱聚类

聚类就是要将一堆没有标签的样本进行合理的划分。在图论的角度上，聚类就是对图进行分割，而谱聚类就是要找到一个合理的切割方法，使得分割后的不同子图内部，权重之和要尽可能地高，而不同子图之间的权重尽可能低。如何切割才能得到最好的结果呢？
我们知道邻接矩阵W代表了点和点之间的连接状态，而上面我们只是简单地令1表示连接，0表示没有边相连。但这样的数字并不能够作为权重。我们可以对其做一点改造，使用一个相似性函数 $s i m (i, j)$ 来衡量点i和点j之间的相似程度，我们可以使用RBF（高斯核函数）来定义相似度，它的定义为 $s(x_i,x_j)=exp(-\gamma||x_i-x_j||^2)$ ,只有当 $x_i,x_j$ 距离很近时，相似度会比较大，如果稍微远一点， $x_i,x_j$ 的相似度下降的比较快。因此只有非常靠近的点会相连。
令 $A_1,A_2,...A_K$ 表示图的几个不相交子集， $\bar A_i$ 表示 $A_i$ 的补集， $W(A_i,\bar A_i)$ 表示 $A_i$ 和 $\bar A_i$ 之间所有边的权重之和。为了让分割的Cut值最小，谱聚类的目标函数定义如下：
$Cut(A_1,...,A_K)=\frac{1}{2}\sum_{i=1}^KW(A_i,\bar A_i)$
然而最小化这个目标函数并不一定能够得到最佳的结果，比如下面这种情况，最小化上面的目标函数往往会得到一个较为偏斜的结果。
在这里插入图片描述
为了让每个类尽量合理，让 $A_1,A_2,...A_K$ 都尽量大，改进后的目标函数为( $A_i|$ 表示i类里包含的定点个数)：
$RatioCut(A_1,...,A_K)=\frac{1}{2}\sum_{i=1}^K\frac{cut(A_1,...,A_K)}{|A_i|}$
也有另外一种优化方式如下：
$Ncut(A_1,...,A_K)=\frac{1}{2}\frac{W(A_i,\bar A_i)}{\sum_{i \in A_i}w_{ij}}$
定义向量 $f=(f_1,...,f_n) \in R^n$ ，且 $f_i=\begin{cases}\sqrt{\frac{|\bar A|}{|A|}} & v_i \in A \\ -\sqrt{\frac{|A|}{|\bar A|}} & v_i \in \bar A \end{cases}$ ，根据拉普拉斯矩阵性质4，有
$\begin{aligned} f'Lf &=\frac{1}{2}\sum_{i,j=1}^Nw_{ij}(f_i-f_j)^2 \\ &=\frac{1}{2}\sum_{i \in A,j \in \bar A}w_{ij}(\sqrt{\frac{|\bar A|}{|A|}}+\sqrt{\frac{|A|}{|\bar A|}})^2+\frac{1}{2}\sum_{i \in A,j \in \bar A}w_{ij}(-\sqrt{\frac{|\bar A|}{|A|}}-\sqrt{\frac{|A|}{|\bar A|}})^2 \\ &=\frac{1}{2}\sum_{i \in A,j \in \bar A}w_{ij}(\sqrt{\frac{|\bar A|}{|A|}}+\sqrt{\frac{|A|}{|\bar A|}})^2+\frac{1}{2}\sum_{i \in A,j \in \bar A}w_{ij}(-\sqrt{\frac{|\bar A|}{|A|}}-\sqrt{\frac{|A|}{|\bar A|}})^2 \\ &=cur(A,\bar A)(\frac{|\bar A|}{|A|}+\frac{|A|}{|\bar A|}+2) \\ &=cur(A,\bar A)(\frac{|\bar A|+|A|}{|A|}+\frac{|A|+|\bar A|}{|\bar A|}) \\ &=cur(A,\bar A)(\frac{|V|}{|A|}+\frac{|V|}{|\bar A|}) \\ &=|V|cur(A,\bar A)(\frac{1}{|A|}+\frac{1}{|\bar A|}) \\ &=n\times RatioCut(A,\bar A) \\ \end{aligned}$
由于 $f_i=\begin{cases}\sqrt{\frac{|\bar A|}{|A|}} & v_i \in A \\ -\sqrt{\frac{|A|}{|\bar A|}} & v_i \in \bar A \end{cases}$ ，有
$\sum_{i=1}^nf_i=|A|\sqrt{\frac{|\bar A|}{|A|}}-|\bar A|\sqrt{\frac{|A|}{|\bar A|}}=0\\ ||f||^2=\sum_{i=1}^nf_i^2=|A|\frac{|\bar A|}{|A|}+|\bar A|\frac{|A|}{|\bar A|}=|\bar A|+|A|=n$
至此，目标函数变为
$\min _{f \in R^n} f'Lf ,\sum_{i=1}^nf_i=0,||f||^2=n$
由于 $f_i$ 有两种取值，所以f就有 $2^n$ 种取值，因此找到符合条件的f是一个NP难的问题。为了使问题变得简单，方便求解，我们考虑f为拉普拉斯矩阵L的特征向量的情况。如果 $Lf=\lambda f$ ,则有 $f'Lf=\lambda f'f=\lambda ||f||^2=\lambda n$ ，因为n为定值，所以要求最小的 $f^{'} L f$ ，只需要找到最小的 $\lambda$ 即可。
由瑞利熵理论可以知道，R(A,x)的最小值为A的最小特征值。不过拉普拉斯矩阵L中，最小的特征值为0对应的特征向量为 $\vec 1$ ，不满足 $\sum_{i=1}^nf_i=0$ ，因此我们取第二小的特征值及其对应的特征向量v来作为我们目标函数的解。
由于一开始我们便限制了 $f_i$ 只能有两个取值，而我们得到的特征向量实际上取值为任意实数。一个简单的方法是根据特征向量每个值大于0还是小于0来讲起映射到 $f_i$ 的两个值上，或者用k-means对特征向量v的每一个值进行聚类，相当于做一次1维的聚类，从而将n个点分成二类。
推广到多分类的情况，我们只需要取前k个最小的特征值，将对应的特征向量排列起来（ $\times K$ ），在按行进行k-means聚类即可。

4. Laplacian Eigenmaps

上面的推导过程实际上还存在着另外一个应用，那就是Laplacian Eigenmaps，它是一种基于相似度矩阵的降维方法。
Laplacian Eigenmaps 是用局部的角度去构建数据之间的关系。如果两个数据实例i和j很相似，那么i和j在降维后目标子空间中应该尽量接近。它的直观思想是希望相互间有关系的点（在图中相连的点）在降维后的空间中尽可能的靠近。利用上面的推导，我们得到了一个结论：通过找出拉普拉斯矩阵L的最小k个特征值及其对应的特征向量，就可以让切割出来的K个区域内部尽可能地相似，而K个区域之间尽可能地不相似。
Laplacian Eigenmaps的流程其实非常简单，总结如下：