局部线性嵌入（Locally Linear Embedding, LLE）

Ghy817920

已于 2022-08-18 20:40:50 修改

阅读量455

点赞数

分类专栏：手撕降维算法（推导+实现）文章标签：算法

于 2022-08-18 13:54:57 首次发布

本文链接：https://blog.csdn.net/Ghy817920/article/details/126398916

版权

手撕降维算法（推导+实现）专栏收录该内容

4 篇文章 1 订阅

订阅专栏

主要思想

LLE将 $D$ 维特征 $\mathbf{X}=[\mathbf{x}_1, \mathbf{x}_2, \cdots, \mathbf{x}_N]\in\mathbb{R}^{D\times N}$ （ $\mathbf{x}_i\in\mathbb{R}^{D}$ ）映射到 $d(d\ll D)$ 维空间中（ $\mathbf{Y}=[\mathbf{y}_1, \mathbf{y}_2, \cdots, \mathbf{y}_N]\in\mathbb{R}^{d\times N}$ ），在原始空间 $\mathbf{X}$ 中的点有着局部线性保持的特性，即
$\mathbf{x}_i=\sum_{j\in\mathcal{N}(i)}{w_{j}\mathbf{x}_j}$
其中 $\mathcal{N}(i)$ 表示在原始空间 $\mathbf{X}$ 中 $\mathbf{x}_i$ 的附近的点，相应的权重为 $w_j$ ，LLE希望在降维后的空间 $\mathbf{Y}$ 中对应的点也有这样的保持关系
$\mathbf{y}_i=\sum_{j\in\mathcal{N}(i)}{w_{j}\mathbf{y}_j}$
所以整个求解思路为：
（1）先求解 $w$ ；
（2）求解降维后的 $\mathbf{Y}$ 。

推导方法

假设已经在原始空间 $\mathbf{X}$ 中构造好了邻近关系 $\mathcal{N}(\cdot)$ ，那么求解 $\mathbf{W}=[\mathbf{w}_1,\cdots,\mathbf{w}_N]\in\mathbb{R}^{N\times N}$ （ $\mathbf{w}_{i,j}=0, if j\notin\mathcal{N}(i)$ ）的优化目标为
$\argmin\limits_{\mathbf{W}}\ \sum_{i=1}^N\left\|\mathbf{x}_i-\sum_{j\in\mathcal{N}(i)}\mathbf{w}_{i,j}\mathbf{x}_j\right\|^2$
一般来说，希望权重和为1，则对 $\forall i$ 有 $\sum_{j\in\mathcal{N}(i)}\mathbf{w}_{i,j}=1$ ，则上述优化问题可进一步简化
$\begin{aligned} \argmin\limits_{\mathbf{W}}\ &\sum_{i=1}^N\left\|\sum_{j\in\mathcal{N}(i)}\mathbf{w}_{i,j}\mathbf{x}_i-\sum_{j\in\mathcal{N}(i)}\mathbf{w}_{i,j}\mathbf{x}_j\right\|^2\\ \argmin\limits_{\mathbf{W}}\ &\sum_{i=1}^N\left\|\sum_{j\in\mathcal{N}(i)}\mathbf{w}_{i,j}\left(\mathbf{x}_i-\mathbf{x}_j\right)\right\|^2\\ \argmin\limits_{\widetilde{\mathbf{w}}_1,\widetilde{\mathbf{w}}_2,\cdots,\widetilde{\mathbf{w}}_N}\ &\sum_{i=1}^N{\widetilde{\mathbf{w}}_i^T\widetilde{\mathbf{X}}_i^T\widetilde{\mathbf{X}}_i\widetilde{\mathbf{w}}_i}\ {\color{blue} (\widetilde{\mathbf{X}}_i=\left[\mathbf{x}_i-\mathbf{x}_j|j\in\mathcal{N}(i)\right]\in\mathbb{R}^{D\times|\mathcal{N}(i)|},\ \widetilde{\mathbf{w}}_i\in\mathbb{R}^{|\mathcal{N}(i)|\times 1})}\\ \end{aligned}$
正如前所述，还有约束条件 $\forall i\in\{1,2,\cdots,N\}$ ， $\widetilde{\mathbf{w}}_i^T1_{|\mathcal{N}(i)|\times 1}=1$ ，所以最终优化问题为：
$\begin{aligned} \argmin\limits_{\widetilde{\mathbf{w}}_1,\widetilde{\mathbf{w}}_2,\cdots,\widetilde{\mathbf{w}}_N}\ &\sum_{i=1}^N{\widetilde{\mathbf{w}}_i^T\widetilde{\mathbf{X}}_i^T\widetilde{\mathbf{X}}_i\widetilde{\mathbf{w}}_i}\\ s.t.\ &\widetilde{\mathbf{w}}_i^T1_{|\mathcal{N}(i)|\times 1}=1,\ i\in\{1,2,\cdots,N\} \end{aligned}$
引入拉格朗日乘子 $\lambda_i,\ i\in\{1,2,\cdots,N\}$
$\begin{aligned} L(\widetilde{\mathbf{w}}_1,\widetilde{\mathbf{w}}_2,\cdots,\widetilde{\mathbf{w}}_N,\lambda)&=\sum_{i=1}^N{\widetilde{\mathbf{w}}_i^T\widetilde{\mathbf{X}}_i^T\widetilde{\mathbf{X}}_i\widetilde{\mathbf{w}}_i}+\sum_{i=1}^N{\lambda_i(\widetilde{\mathbf{w}}_i^T1_{|\mathcal{N}(i)|\times 1}-1)}\\ \partial L(\widetilde{\mathbf{w}}_1,\widetilde{\mathbf{w}}_2,\cdots,\widetilde{\mathbf{w}}_N,\lambda)/\partial \widetilde{\mathbf{w}}_i&=2\widetilde{\mathbf{X}_i}^T\widetilde{\mathbf{X}_i}\widetilde{\mathbf{w}}_i+\lambda_i1_{|\mathcal{N}(i)|\times 1}=0\\ &\widetilde{\mathbf{w}}_i=-\frac12\lambda_i(\widetilde{\mathbf{X}_i}^T\widetilde{\mathbf{X}_i})^{-1}1_{|\mathcal{N}(i)|\times 1}\\ \end{aligned}$
再根据 $\widetilde{\mathbf{w}}_i^T1_{|\mathcal{N}(i)|\times 1}=1$ 的约束，归一化之后可得
$\widetilde{\mathbf{w}}_i=\frac{(\widetilde{\mathbf{X}}^T\widetilde{\mathbf{X}}_i)^{-1}1_{|\mathcal{N} (i)|\times 1}}{1_{1\times |\mathcal{N} (i)|}(\widetilde{\mathbf{X}}^T\widetilde{\mathbf{X}}_i)^{-1}1_{|\mathcal{N} (i)|\times 1}}$
根据所得结果可以还原 $\mathbf{W}\in\mathbb{R}^{N\times N}$ 。下面给出求解 $\mathbf{Y}$ 的优化问题：
$\begin{aligned} \argmin\limits_{\mathbf{Y}}\ &\sum_{i=1}^N{\left(\mathbf{y}_i-\mathbf{Y}\mathbf{w}_i\right)^T\left(\mathbf{y}_i-\mathbf{Y}\mathbf{w}_i\right)}\\ \argmin\limits_{\mathbf{Y}}\ &\sum_{i=1}^N{\left(\mathbf{y}_i^T\mathbf{y}_i+\mathbf{w}_i^T\mathbf{Y}^T\mathbf{Y}\mathbf{w}_i-\mathbf{y}_i^T\mathbf{Y}\mathbf{w}_i-\mathbf{w}_i^T\mathbf{Y}^T\mathbf{y}_i\right)}\\ \argmin\limits_{\mathbf{Y}}\ &trace(\mathbf{Y}^T\mathbf{Y})+trace(\mathbf{W}^T\mathbf{Y}^T\mathbf{Y}\mathbf{W})-trace(\mathbf{Y}^T\mathbf{Y}\mathbf{W})-trace(\mathbf{W}^T\mathbf{Y}^T\mathbf{Y})\\ \argmin\limits_{\mathbf{Y}}\ &trace(\mathbf{Y}\mathbf{Y}^T)+trace(\mathbf{Y}\mathbf{W}\mathbf{W}^T\mathbf{Y}^T)-trace(\mathbf{Y}\mathbf{W}\mathbf{Y}^T)-trace(\mathbf{Y}\mathbf{W}^T\mathbf{Y}^T)\\ \argmin\limits_{\mathbf{Y}}\ &trace(\mathbf{Y}(\mathbb{I}+\mathbf{W}\mathbf{W}^T-\mathbf{W}-\mathbf{W}^T)\mathbf{Y}^T)\\ \argmin\limits_{\mathbf{Y}}\ &trace(\mathbf{Y}\mathbf{Y}^T)+trace(\mathbf{Y}\mathbf{W}\mathbf{W}^T\mathbf{Y}^T)-trace(\mathbf{Y}\mathbf{W}\mathbf{Y}^T)-trace(\mathbf{Y}\mathbf{W}^T\mathbf{Y}^T)\\ \argmin\limits_{\mathbf{Y}}\ &trace(\mathbf{Y}(\mathbb{I}-\mathbf{W})(\mathbb{I}-\mathbf{W})^T\mathbf{Y}^T)\\ \end{aligned}$
为了防止维度的退化且消除尺度大小的影响，引入约束 $\mathbf{Y}\mathbf{Y}^T=\mathbb{I}$ ，所以最终的优化问题为：
$\begin{cases} \argmin\limits_{\mathbf{Y}} \,\,trace(\mathbf{Y}(\mathbb{I} -\mathbf{W})(\mathbb{I} -\mathbf{W})^T\mathbf{Y}^T)\\ s.t. \mathbf{YY}^T=\mathbb{I}\\ \end{cases}$
由上可知，最优值 $\mathbf{Y}$ 为矩阵 $(\mathbb{I} -\mathbf{W})(\mathbb{I} -\mathbf{W})^T$ 所对应的最小 $d$ 个特征值对应的特征向量的转置！

而 $(\mathbb{I} -\mathbf{W})1_{N\times 1}=0$ ，则说明 $(\mathbb{I} -\mathbf{W})(\mathbb{I} -\mathbf{W})^T$ 有最小特征值为0的全1特征向量。因此，从倒数第二小的特征值对应的特征向量开始取。

Ghy817920

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
局部线性嵌入（Locally Linear Embedding, LLE）

LLE将D维特征X=[x1,x2,⋯,xN]∈RD×N（xi∈RD）映射到d(d≪D)维空间中（Y=[y1,y2,⋯,yN]∈Rd×N），在原始空间X中的点有着局部线性保持的特性，即xi=j∈N(i)∑wjxj其中N(i)表示在原始空间X中xi的附近的点，相应的权重为wj，LLE希望在降维后的空间Y。............
复制链接

扫一扫