降维系列之 LE 拉普拉斯特征映射

最新推荐文章于 2024-03-31 19:52:47 发布

BigYouYou

最新推荐文章于 2024-03-31 19:52:47 发布

阅读量2.7k

点赞数 5

分类专栏：降维与多视角学习

本文链接：https://blog.csdn.net/qq_30565883/article/details/104210820

版权

降维与多视角学习专栏收录该内容

10 篇文章 22 订阅

订阅专栏

优化目标

接上篇PCA继续写降维。LE也是一种经典的降维方法和流形学习方法。给定样本集 $X\in \mathbb{R}^{D\times n}$ ， $D$ 是样本原始维度， $n$ 是样本数量，每一列表示一个样本；求解目标是 $Y\in \mathbb{R}^{d\times n}$ ， $d$ 为目标维度，每一列表示一个样本。
与PCA不同的是，LE是一种非线性的方法，它是直接将 $Y$ 求出来，不需要计算投影矩阵。LE首先度量 $X$ 中每两个样本之间的距离权重，组成一个权重矩阵 $W$ ，其第 $i,j(i\neq j)$ 个元素 $W_{ij}$ 定义为：
$W_{ij}=\left\{ \begin{array}{ccl} exp(-\frac{\|x_i-x_j\|_2^2}{t}) & & {if\ \|x_i-x_j\|_2^2 < \varepsilon }\\ 0 & & {else} \end{array} \right.$

若 $i = j$ ， $W_{ij}$ 直接置 $0$ 。其中 $x_i,x_j$ 分别表示 $X$ 的第 $i, j$ 个样本， $t,\varepsilon$ 是可调节的参数。可以看出在这种定义中，如果两样本的距离（二范数度量）小于阈值 $\varepsilon$ 则赋予一连接权重，并且距离越远权重越小，距离越近权重越大。通过权重矩阵 $W$ ，LE记录了 $X$ 中任意两样本之间的连接关系。
LE希望降完维后各样本仍保持这种邻近关系，原本距离远的点仍然距离较远，原本距离近的点仍然距离较近，因此用已经计算出的 $W_{ij}$ 仍作为 $Y$ 中样本之间的连接权重，并最小化连接的加权和：
$\min_Y \frac{1}{2} \sum_{i,j=1}^n W_{ij}\|y_i-y_j\|_2^2$

约束条件后面再谈。
显然 $y_i,y_j$ 分别是样本 $x_i,x_j$ 降完维后的结果，是 $Y$ 的第 $i, j$ 列。这就是LE的优化目标。

Lagrangian乘子法求解

下面做推导：
$\frac{1}{2} \sum_{i,j=1}^n W_{ij}\|y_i-y_j\|_2^2 \\ =\frac{1}{2} \sum_{i,j=1}^n W_{ij}(y_i-y_j)^T(y_i-y_j) \\ =\frac{1}{2} \sum_{i,j=1}^n W_{ij}(y_i^Ty_i+y_j^Ty_j-2y_i^Ty_j) \\ =\frac{1}{2} \sum_{i,j=1}^n W_{ij}(y_i^Ty_i+y_j^Ty_j)-\sum_{i=1}^n \sum_{j=1}^n W_{ij}y_i^Ty_j \\ =\sum_{i=1}^nD_{ii}y_i^Ty_i-\sum_{i=1}^n y_i^T \sum_{j=1}^n W_{ij}y_j \\ =\sum_{i=1}^n D_{ii}y_i^Ty_i -\sum_{i=1}^n y_i^T(YW)_i \\ =tr(YDY^T)-tr(YWY^T) \\ =tr[Y(D-W)Y^T]=tr(YLY^T) \\ s.t.\ YDY^T=I$

其中 $D$ 是度矩阵，是一个对角矩阵， $L = D - W$ 是拉普拉斯矩阵， $D_{ii}$ 的值为：
$D_{ii}=\sum_{j=1}^nW_{ij}$

使用Lagrangian乘子法：
$L(Y,\lambda)=tr(YLY^T)+ tr[\lambda(I-YDY^T)]$

$\lambda$ 是个对角矩阵。令偏导为0：
$\frac{\partial}{\partial Y}L(Y,\lambda)=2YL-2\lambda YD=0\ (L^T=L,D^T=D)\\ LY^T=DY^T\lambda \\ \frac{\partial}{\partial \lambda}L(Y, \lambda)= I-YDY^T=0 \\ YDY^T=I \\$

从 $LY^T=DY^T\lambda$ 可知， $Y^T$ 的每一列，即 $Y$ 的每一行，都是 $L$ 相对于 $D$ 的广义特征向量（或称为 $D^{-1}L$ 的特征向量），对应的 $\lambda$ 的对角元是对应的特征值。

将 $LY^T=DY^T\lambda$ 代回原式：
$tr(YLY^T)=tr(YDY^T\lambda=tr(\lambda))$

因此就能知道为了让 $tr(YLY^T)$ 最小，等价于让 $tr(\lambda)$ 最小，即要选择最小的 $d$ 个特征值对应的特征向量组成 $Y$ 。

这里还有一个问题，由于 $L = D - W$ ，而 $W, L$ 都是对称矩阵， $L_{ii}$ 恰好就是 $W$ 的第 $i$ 行元素（或第 $i$ 列元素）之和，因此 $L_{ii}$ 就等于 $L$ 第 $i$ 行其他元素之和。若有向量 $e=[1,\cdots,1]^T\in \mathbb{R}^{D}$ ，则一定有：
$Le=0\cdot e$

这告诉我们 $0$ 一定是 $D^{-1}L$ 的一个特征值，对应的特征向量是 $e$ ，无论 $X, W$ 是怎样的。这显然不是我们想要的，因此作为最终解，会选取 $D^{-1}L$ 最小的 $d$ 个非0特征值对应的特征向量组成 $Y$ 。

解法2

如果你和我曾经一样认为Lagrangian乘子法中直接设 $\lambda$ 为对角矩阵不符合Lagrangian乘子法的思想，这里再给另一种解法，这种解法类似于我在PCA这篇文章中给出的 $d > 1$ 时的解1.

从这里开始：
$tr(YLY^T) \\ s.t.\ YDY^T=I$

假设 $Y\in \mathbb{R}^{d\times n}$ 的第 $i$ 行为 $Y^i$ ，则上式可以另写为如下形式：
$\sum_{i=1}^d Y^iL(Y^i)^T \\ s.t.\ Y^iD(Y^i)^T=1,Y^iD(Y^j)^T=0$

列Lagrangian乘子法：
$L(Y,\lambda,\rho)=\sum_{i=1}^d Y^iL(Y^i)^T+\sum_{i=1}^d \lambda_i[1-Y^iD(Y^i)^T]-\sum_{j\neq i}^d \rho_j Y^iD(Y^j)^T$

对 $Y^i$ 求导并令结果为 $0$ ：
$\frac{\partial}{\partial Y^i}L(Y,\lambda,\rho)=2L(Y^i)^T-2\lambda_i D(Y^i)^T-\rho_jD(Y^j)^T=0$

因为对 $\lambda_i,\rho_i$ 求导的结果根本就是等式约束，所以这里不赘述。对上式左右同乘 $Y^i$ ：
$2Y^iL(Y^i)^T=2Y^i\lambda_iD(Y^i)^T+\rho_jY^iD(Y^j)^T \\ Y^iL(Y^i)^T=Y^i\lambda_iD(Y^i)^T \\ L(Y^i)^T=\lambda_iD(Y^i)^T$

跟前面得到的结果完全一样。我这也算是证明了这两种解法等价呢，嘿嘿。这里面一个关键点在于，我们确信 $Y^i$ 不可能是全0向量，因为那样毫无意义。

总结

推导上比较难想到的一点还是 $\sum_{i=1}^n \sum_{j=1}^n W_{ij}y_i^Ty_j=tr(YWY^T)$ 。这个推导告诉我们这样的式子是可以写成简洁形式的。

BigYouYou

关注

5
点赞
踩
21

收藏

觉得还不错? 一键收藏
4
评论
降维系列之 LE 拉普拉斯特征映射

优化目标接上篇PCA继续写降维。LE也是一种经典的降维方法和流形学习方法。给定样本集X∈RD×nX\in \mathbb{R}^{D\times n}X∈RD×n，DDD是样本原始维度，nnn是样本数量，每一列表示一个样本；求解目标是Y∈Rd×nY\in \mathbb{R}^{d\times n}Y∈Rd×n，ddd为目标维度，每一列表示一个样本。与PCA不同的是，LE是一种非线性的方法，它...
复制链接

扫一扫