降维系列之 LLE 局部线性嵌入

最新推荐文章于 2024-04-05 11:21:50 发布

BigYouYou

最新推荐文章于 2024-04-05 11:21:50 发布

阅读量605

点赞数 1

分类专栏：降维与多视角学习文章标签：概率论机器学习线性代数

本文链接：https://blog.csdn.net/qq_30565883/article/details/104247359

版权

降维与多视角学习专栏收录该内容

10 篇文章 24 订阅

订阅专栏

基本思路

LLE（Local Linear Embedding）局部线性嵌入的思路也是局部保持与线性降维，是一种经典的降维与流形学习算法。给定 $X\in \mathbb{R}^{D\times n}$ 表示原始的 $n$ 个样本，每列一个样本，欲求 $X$ 中这些样本降维后的结果 $Y\in \mathbb{R}^{d\times n},d<D$ .
为了记录原始样本分布的局部信息，LLE将 $X$ 中每个样本用其 $k$ 个近邻来表示（或称为“重建”），使其 $k$ 个近邻的加权和尽可能接近该样本，最小化重建误差，设第 $i$ 个样本 $x_i$ 的第 $j$ 个近邻 $x_{ij}$ 的重建权重为 $W_{ij}$ ，先计算这个 $W\in \mathbb{R}^{n\times k}$ 矩阵。
在降维的过程中，既然已经得到了 $W$ ，LLE希望降完维后的 $Y$ 中的各样本仍保持 $W$ 所描述的这种重建关系。
这就是LLE的思路，先记录样本及其近邻之间的关系，然后在降维时保持这种关系。

$W$ 矩阵求解

先来计算 $W$ 矩阵：
$\min_W \sum_{i=1}^n\|x_i-\sum_{j=1}^kW_{ij}x_{ij} \|_2^2 \\ s.t.\ \sum_{j=1}^kW_{ij}=1$

$k$ 为近邻数量，是个可以调节的参数， $x_{ij}$ 是 $x_i$ 的第 $j$ 个近邻， $x_i,x_{ij}$ 都是列向量。这就是所谓的用来求 $W$ 的要最小化的“重建误差”。我们来求解。
$\sum_{i=1}^n\|x_i-\sum_{j=1}^kW_{ij}x_{ij} \|_2^2 \\ = \sum_{i=1}^n \|\sum_{j=1}^kW_{ij}(x_i-x_{ij}) \|_2^2 \\ = \sum_{i=1}^n (W_i \tilde{x}_i^T)(\tilde{x}_iW_i^T) \\ = \sum_{i=1}^n W_i \tilde{x}_i^T\tilde{x}_iW_i^T \\ s.t.\ W_ie=1 \\ W_i=[W_{i1},W_{i2},\cdots,W_{ik}]\in \mathbb{R}^{1\times k} \\ \tilde{x}_i=[x_i-x_{i1},x_i-x_{i2},\cdots,x_i-x_{ik}]\in \mathbb{R}^{D\times k} \\ e=[1,1,\cdots,1]^T\in \mathbb{R}^{k\times 1}$

变成这种形式后用Lagrangian乘子法求解：
$\lambda)=\sum_{i=1}^n W_i \tilde{x}_i^T\tilde{x}_iW_i^T + \lambda_i(1-W_ie)$

令偏导为 $0$ ：
$\frac{\partial}{\partial W_i}L(W,\lambda)=2W_i\tilde{x}_i^T\tilde{x}_i-\lambda_ie^T=0 \\ W_i\tilde{x}_i^T\tilde{x}_i= \frac{1}{2} \lambda_ie^T\\ W_i= \frac{1}{2} \lambda_i e^T(\tilde{x}_i^T\tilde{x}_i)^{-1} \tag{1}$
$\frac{\partial}{\partial \lambda_i}L(W,\lambda_i)=1-W_ie=0 \\ W_ie=1 \\ \frac{1}{2} \lambda_i e^T(\tilde{x}_i^T\tilde{x}_i)^{-1}e=1 \tag{2}$

从公式 $(2)$ 可以解出 $\lambda_i$ ，代入公式 $(1)$ 可以解出 $W_i$ 。因为只能解出来一组结果，尽管是必要条件，但是也就这样了。
这样就得到了 $W$ 矩阵。

投影优化与求解

求出 $W$ 之后，如前所述，要在降维后的 $Y$ 中尽量保持 $W$ 所描述的重建关系，因此LLE列出了下优化目标：
$\min_Y \sum_{i=1}^n\| y_i-\sum_{j=1}^kW_{ij}y_{ij} \|_2^2 \\ =\sum_{i=1}^n\| YI_i- Y \sum_{j=1}^k W_{ij}I_{(i)j} \|_2^2 \\ = \sum_{i=1}^n \| Y(I_i- \tilde{W}_i^T) \|_2^2 \\ = \sum_{i=1}^n (I_i^T-\tilde{W}_i)Y^T Y(I_i-\tilde{W}_i^T) \\ =tr(G^TY^TYG) \\ s.t.\ YY^T=I$

$I_i\in \mathbb{R}^{n\times 1}$ 是一个列向量，其第 $i$ 个元素为1，其他均为0，起到一个筛选作用，从 $Y$ 中将 $y_i$ 筛选出来。 $\tilde{W}_i^T\in \mathbb{R}^{n\times 1}$ 是一个列向量，其定义其实可以从公式里面看出来，第 $j$ 个样本如果是 $x_i$ 的 $k$ 近邻之一，则 $\tilde{W}_i$ 第 $j$ 个元素为 $W_{ij}$ ，否则为0. 而 $G\in \mathbb{R}^{n\times n}$ 是一个矩阵，第 $i$ 列为 $(I_i-\tilde{W}_i^T)$ 。且有 $G=I-\tilde W^T$ 。

然后列Lagrangian乘子法：
$L(Y,\lambda)=tr(G^TY^TYG) +tr[\lambda(I-YY^T)]$

$\lambda$ 为对角矩阵。求偏导并令偏导为0：
$\frac{\partial }{\partial Y}L(Y,\lambda)=2YGG^T-2\lambda Y=0 \\ GG^TY^T=Y^T\lambda \\ (I-\tilde W^T)(I-\tilde W^T)^TY^T=Y^T\lambda \\$
$\frac{\partial }{\partial \lambda}L(Y,\lambda)=I-YY^T=0 \\ YY^T=I$

意思是说 $Y^T$ 的每一列（Y的每一行）都应该是 $GG^T$ 的特征向量，对应的特征值在 $\lambda$ 的对角元上。这是必要条件。把 $GG^TY^T=Y^T\lambda$ 代回去：
$tr(G^TY^TYG) =tr(YGG^TY^T)=tr(YY^T\lambda)=tr(\lambda)$

这告诉我们 $tr(G^TY^TYG)$ 的最小值等价于 $tr(\lambda)$ 的最小值，因此要选取最小的 $d$ 个特征值对应的特征向量组成 $Y$ 。

然而这里有一个问题，那就是 $GG^T$ 最小的特征值是0，对应的特征向量是个 $e=[1,1\cdots,1]^T\in \mathbb{R}^{n\times 1}$ 。证明一下：
$(I-\tilde W^T)(I-\tilde W^T)^Te=(I-\tilde{W}^T)(I-\tilde{W}e)=(I-\tilde W^T)\cdot 0=0\cdot e$

主要原因是 $\tilde W\in \mathbb{n\times n}$ 的每一行之和都为0。本来就是从重建矩阵 $W\in \mathbb{R}^{n\times k}$ 来的嘛，只不过扩展了一下，扩展的还都填了0.
这个证明告诉我们无论 $X$ 怎样变化， $GG^T$ 都有一个特征向量全为1，对应的特征值为0. 这显然不是我们想要的，因此一般取非0的前 $d$ 小的特征值对应的特征向量组成 $Y$ 。

总结

这个推导告诉我们，经典形式 $tr(W^TAA^TW)$ 有多么重要以及千变万化。
还告诉我们，构造向量和矩阵以形成熟悉容易解的形式非常重要。
另有一点， $GG^T$ 的结果是 $n\times n$ 的矩阵，最多有 $n$ 个特征值，其中还有一个是0，也就是说 $d > n - 1$ 的时候LLE就不能用了。

BigYouYou

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
降维系列之 LLE 局部线性嵌入

基本思路LLE（Local Linear Embedding）局部线性嵌入的思路也是局部保持与线性降维，是一种经典的降维与流形学习算法。给定X∈RD×nX\in \mathbb{R}^{D\times n}X∈RD×n表示原始的nnn个样本，每列一个样本，欲求XXX中这些样本降维后的结果Y∈Rd×n,d<DY\in \mathbb{R}^{d\times n},d<DY∈Rd×n,d...
复制链接

扫一扫