浅谈局部线性嵌入（LLE）的数学原理

最新推荐文章于 2021-12-13 12:09:03 发布

klcola

最新推荐文章于 2021-12-13 12:09:03 发布

阅读量999

点赞数 1

分类专栏：数学文章标签：机器学习算法

本文链接：https://blog.csdn.net/klcola/article/details/104526501

版权

数学专栏收录该内容

7 篇文章 4 订阅

订阅专栏

数学系列是本人学习笔记，水平有限，错误在所难免，还请读者不吝指正

Nonlinear Dimensionality Reduction by Locally Linear Embedding

简介

局部线性嵌入（LLE）利用非监督学习方法来将高维网络数据嵌入到低维空间中，并在该低维空间中保留网络节点间的邻域信息。区别于局部降维的聚类方法，LLE将网络节点映射到一个统一的低维空间坐标系统中，并且该方法的优化不依赖局部最小值。利用线性重构的局部对称性，LLE 能够学习非线性流形（nonlinear manifold）的全局结构，例如由人脸数据或文本文档生成的流形。

符号规定

大写粗体（例如 ${\bf X}$ ）表示矩阵
小写粗体（例如 ${\bf x}$ ）表示向量
大写字母（例如 $D$ ）表示常量
小写字母（例如 $i$ ）表示变量

算法原理

LLE 的提出是基于简单的几何直觉。假设我们基于某种潜在的流形取样，得到的数据有 $N$ 个实数向量 ${\bf x_i}$ ，每个向量有 $D$ 个维度。假如数据量足够，使得取样的数据在流形上均匀分布，那么每个数据点和他的近邻应该集中分布在流形上一个局部的区域内。我们假设在这个局部区域内的点，都可以被其邻居点线性重构出来。LLE 的算法可以分为如下的步骤：

为每个数据点 ${\bf x}_i$ 寻找欧式距离相近的点。在近邻点的选取上有两种策略，一种是选取固定数目的近邻点，另一种是划定一个邻域，选取在邻域内的点。LLE 采取的是前者，即选取固定的 $k$ 个近邻点。

利用近邻点的线性组合来表示点 ${\bf x}_i$ ${\bf x}_i = \sum^k_j {\bf w}_i^j {\bf x}_i^j$ 请注意这里的上标不是幂次而是向量的分量，即 ${\bf w}^j_i$ 表示向量 ${\bf w}_i$ 的第 $j$ 个分量， ${\bf x}_i^j$ 表示向量 ${\bf x}_i$ 的第 $j$ 个分量。我们需要求出所有的权重向量 ${\bf w}_i, \ i = 1, 2, \ldots, N$ 。那么怎样的 ${\bf w}_i$ 才是最优的呢？自然而然的，我们肯定是希望 ${\bf x}_i$ 近邻点的线性组合能够尽可能的接近它，这样，我们就是在寻找能够使得近邻点和 ${\bf x}_i$ 的欧式距离，也就是使 $\epsilon ({\bf w}) = \sum^N_i ||{\bf x}_i - \sum^k_j {\bf w}_i^j {\bf x}_i^j||^2_2$ 最小的 ${\bf w}$ ，为了计算方便，LLE 还要求对每一个 ${\bf x}_i$ ，都有 $\sum^k_j {\bf w}_i^j = 1$ 。为了方便计算，我们先看一个点 ${\bf x_i}$ 和其近邻点 ${\bf x}_i^1, {\bf x}_i^2, \ldots, {\bf x}_i^k$ 的距离，因为有 $\sum^k_j{\bf w}_i^j = 1$ ，所以 ${\bf x}_i = {\bf x}_i \sum^k_j{\bf w}_i^j = \sum^k_j{\bf w}_i^j{\bf x}_i$ ，那么 $\begin{aligned} \epsilon({\bf w}) & = \sum^N_i||{\bf x}_i - \sum^k_j {\bf w}_i^j {\bf x}_i^j||^2_2 \\ & = \sum^N_i||\sum^k_j{\bf w}_i^j{\bf x}_i - \sum^k_j {\bf w}_i^j {\bf x}_i^j||^2_2 \\ & = \sum^N_i||\sum^k_j{\bf w}_i^j({\bf x}_i - {\bf x}_i^j)||^2_2 \end{aligned}$ 令 $\begin{aligned} {\bf X}_i & = \begin{bmatrix} {\bf x}_i - {\bf x}_i^1 , {\bf x}_i - {\bf x}_i^2 , \cdots , {\bf x}_i - {\bf x}_i^k \end{bmatrix} \\[2ex] {\bf w}_i & = \begin{bmatrix} w_i^1 \\ w_i^2 \\ \vdots \\ w_i^k \end{bmatrix} \\[6ex] {\bf 1} & = (\underbrace{1, 1, \cdots, 1}_{k 个}) \end{aligned}$ 则 $\begin{aligned} \epsilon({\bf w}) & = \sum^N_1 ||{\bf X}_i{\bf w}_i||^2_2 \\ & = \sum^N_1 {\bf w}_i^T{\bf X}_i^T{\bf X}_i{\bf w}_i \end{aligned}$ 且 ${\bf 1w} = 1$ 则我们有优化问题 $\min_w \sum_i^N {\bf w}_i^T{\bf X}_i^T{\bf X}_i{\bf w}_i \\ s.t. \quad {\bf 1w}_i = 1$

设 $\begin{aligned} f({\bf w}) & = \frac{1}{2} \sum_i^N {\bf w}_i^T{\bf X}_i^T{\bf X}_i{\bf w}_i \\ g({\bf w}) & = {\bf 1w}_i \end{aligned}$ 给 $f({\bf w})$ 乘上 $1 / 2$ 是为了求导的时候消去系数，不影响最后的结果。据此，我们来构造拉格朗日函数（关于拉格朗日乘子法，请参考浅谈拉格朗日乘子法的数学推导） $\begin{aligned} {\frak L}({\bf w}, \lambda) & = f({\bf w}) + \lambda(g({\bf w}_i) - 1) \\ & = \frac{1}{2} \sum_i^N {\bf w}_i^T{\bf X}_i^T{\bf X}_i{\bf w}_i + \lambda({\bf 1w}_i - 1) \end{aligned}$ 分别对 ${\bf w}$ 和 $\lambda$ 求偏导置零，我们已知有矩阵求导公式 $\begin{aligned} \frac{\partial {\bf yx}}{\partial {\bf x}} & = {\bf y}^T \\ \frac{\partial {\bf x}^T{\bf Ax}}{\partial {\bf x}} & = ({\bf A} + {\bf A}^T){\bf x} \end{aligned}$ 则 $\begin{aligned} \frac{\partial {\frak L}({\bf w}, \lambda)}{\partial {\bf w}_i} & = \frac{1}{2}(2 {\bf X}_i^T{\bf X}_i){\bf w}_i + \lambda {\bf 1}^T \\ & = ({\bf X}_i^T{\bf X}_i){\bf w}_i + \lambda {\bf 1}^T \\ & = 0 \\ \frac{\partial {\frak L}({\bf w}, \lambda)}{\partial \lambda} & = {\bf 1w}_i - 1 = 0 \end{aligned}$ ${\bf X}_i$ 是已知量，通过上面两式可计算出 ${\bf w}_i$ 及 $\lambda$ 。若 ${\bf X}_i^T{\bf X}_i$ 可逆，设 ${\bf L}_i = {\bf X}_i^T{\bf X}_i$ ，则 ${\bf w}_i = -\lambda{\bf L}_i^{-1}{\bf 1}^T$ 又因为 ${\bf 1w}_i = 1$ ，所以 $\lambda = - \frac{1}{{\bf 1L}_i^{-1}{\bf 1}^T}$ 将上式代入 ${\bf w}_i = -\lambda{\bf L}_i^{-1}{\bf 1}^T$ ，得 ${\bf w}_i = - \frac{{\bf L}_i^{-1}{\bf 1}^T}{{\bf 1L}_i^{-1}{\bf 1}^T}$

这样定义的权重 ${\bf w}$ 有一个重要的性质，对于任何特定的点 ${\bf x}_i$ ，当对该点和其邻居点所组成的空间进行进行旋转、伸缩或者平移时， ${\bf w}$ 保持恒定。这是因为 ${\bf w}$ 描述了 ${\bf x}_i$ 可由其邻居节点线性组合重构而成的这种关系，对该点和其邻居点所组成的空间进行进行旋转、伸缩或者平移相当于对线性方程组 ${\bf x}_i = \sum^k_j w^{j}_{i} {\bf x}_j$ 进行各种线性变换（该线性方程组中 ${\bf x}_i$ 和 ${\bf x}_j$ 是已知量， $w^{j}_i$ 是需要求解的未知量）而方程组的线性变换并不影响方差组的解。我们可以看出 ${\bf w}$ 的定义不依赖于任何第三方的参照物，所以 ${\bf w}$ 描述了一点和其邻居节点内在的几何关系。这样的话，当我们将数据点嵌入到更低维度的 $d$ 维空间中（ $\ll D$ ）时， ${\bf w}$ 仍然保持不变。据此，我们可以计算数据点映射到低维空间之后的坐标。
假设我们将所有的 ${\bf x}$ 映射到维度为 $\ll D)$ 的低维空间，我们用 ${\bf y}$ 来代表映射后的点，类似的，我们需要使得 $\phi ({\bf w}) = \sum^N_i ||{\bf y}_i - \sum^k_j w^{j}_{i} {\bf y}_j||^2_2$ 最小。和我们计算 $\epsilon ({\bf w})$ 类似，但是现在 $\bf w$ 变成了已知量，而点 $\bf y$ 则成为了未知量。设 $\begin{aligned} {\bf Y} & = \begin{pmatrix} {\bf y}_1 \\ {\bf y}_2 \\ \vdots \\ {\bf y}_N \end{pmatrix} \\[6ex] {\bf W} & = \begin{bmatrix} w_{11} & w_{12} & \cdots & w_{1N} \\[2ex] w_{21} & w_{22} & \cdots & w_{2N} \\[2ex] \vdots & \vdots & \ddots & \vdots \\[2ex] w_{N1} & w_{N2} & \cdots & w_{NN} \\ \end{bmatrix} \\[10ex] {\bf I} & = \begin{bmatrix} 1 & 0 & \cdots & 0 \\ 0 & 1 & \cdots & 0 \\ \vdots & \vdots & \ddots & 0 \\ 0 & 0 & \cdots & 1 \end{bmatrix} \end{aligned}$ 这里为了计算方便，我们把 $\bf W$ 设成 $\times N$ 的矩阵，每一行代表一个点 ${\bf y}_i$ 相邻节点的权重，那么 ${\bf y}_i$ 的相邻节点只有 $k$ 个，但我们每一行有 $N$ 个权重 $w$ ，为了解决这个矛盾，只需要将不是 ${\bf y}_i$ 相邻节点的权重置为 $0$ 即可。这样，可得 $\begin{aligned} \phi ({\bf y}) & = \sum^N_i ||{\bf y}_i - \sum^k_j w^{j}_{i} {\bf y}_j||^2_2 \\ & = \sum^N_i||{\bf I}_i{\bf Y} - {\bf W}_i{\bf Y}||^2_2 \\ & = ||({\bf I} - {\bf W}){\bf Y}||^2_F \\ & = tr({\bf Y}^T({\bf I}- {\bf W})^T({\bf I} - {\bf W}){\bf Y}) \end{aligned}$ 令 ${\bf M}=({\bf I}- {\bf W})^T({\bf I} - {\bf W})$ ，则有 $\phi({\bf y}) = tr({\bf Y}^T{\bf MY})$ 设 ${\bf Y} = \begin{bmatrix} \beta_{11} & \beta_{12} & \cdots & \beta_{1N} \\[2ex] \beta_{21} & \beta_{22} & \cdots & \beta_{2N} \\[2ex] \vdots & \vdots & \ddots & \vdots \\[2ex] \beta_{N1} & \beta_{N2} & \cdots & \beta_{NN} \end{bmatrix}$ 也即 ${\bf y}_i = (\beta_{i1} , \beta_{i2} , \cdots , \beta_{iN})$ 则 $\phi({\bf y}) = tr( \begin{bmatrix} \beta_{11} & \beta_{21} & \cdots & \beta_{N1} \\[2ex] \beta_{12} & \beta_{22} & \cdots & \beta_{N2} \\[2ex] \vdots & \vdots & \ddots & \vdots \\[2ex] \beta_{1N} & \beta_{2N} & \cdots & \beta_{NN} \\ \end{bmatrix} {\bf M} \begin{bmatrix} \beta_{11} & \beta_{12} & \cdots & \beta_{1N} \\[2ex] \beta_{21} & \beta_{22} & \cdots & \beta_{2N} \\[2ex] \vdots & \vdots & \ddots & \vdots \\[2ex] \beta_{N1} & \beta_{N2} & \cdots & \beta_{NN} \\ \end{bmatrix} )$ 令 ${\bf z}_i = (\beta_{1i}, \beta_{2i}, \cdots, \beta_{Ni})$ ，经过计算我们会发现 $\begin{aligned} \phi({\bf y}) & = tr( \begin{bmatrix} {\bf z}_1^T{\bf Mz}_1 & & & \\[3ex] & {\bf z}_2^T{\bf Mz}_2 & & \\[3ex] & & \ddots & \\[3ex] & & & {\bf z}_N^T{\bf Mz}_N \end{bmatrix}) \\[12ex] & = \sum_i^N {\bf z}_i^T{\bf Mz}_i \\[2ex] & = \sum_i^N {\bf z}_i^H{\bf Mz}_i \quad \text{ (${\bf z}_i$ 为实数向量，${\bf z}_i^H = {\bf z}_i^T$) } \end{aligned}$ 为了方便计算，我们要求 ${\bf Y}^T{\bf Y} = {\bf I}$ 。

可以证明， $\bf M$ 为厄米特矩阵（Hermitian Matrix）。这是因为， ${\bf M}^T = (({\bf I}- {\bf W})^T({\bf I} - {\bf W}))^T = ({\bf I}- {\bf W})^T({\bf I} - {\bf W}) = {\bf M}$ 而 $\bf M$ 又是实数矩阵，所以 ${\bf M}^* = {\bf M}$ （ ${\bf M}^*$ 表示 $\bf M$ 的共轭矩阵）,因此 ${\bf M}^H = {\bf M}$ 。观察 $\phi({\bf y})$ ， ${\bf z}_i^H{\bf Mz}_i$ 正是瑞利商（Rayleigh quotient） ${\bf z}_i^H{\bf Mz}_i/{\bf z}_i^H{\bf z}$ 的分子。又因为 ${\bf Y}^T{\bf Y} = {\bf I}$ ，所以 ${\bf z}_i^H{\bf z} = 1$ 。根据瑞利定理（Rayleigh theorem）， $\bf M$ 的特征向量即是函数 $R({\bf z}) = {\bf z}^H{\bf Mz}$ 的驻点，而对应的特征值即是 $R({\bf z})$ 在该点的值。因此，如果我们求使得 $\phi({\bf y})$ 最小的 ${\bf y}$ ，我们首先设定低维空间的维数 $d$ ，令 $\ll D$ ，只需要求出 $\bf M$ 所有的特征值，并将特征值从小到大排列，选取前 $d$ 个特征值及其对应的特征向量，即可求得映射到低维空间的坐标 $\bf Y$ （关于瑞利商和瑞利定理，请参考瑞利商及瑞利定理）。

参考资料

Sam T. Roweis and Lawrence K. Saul, Nonlinear Dimensionality Reduction by Locally Linear Embedding, SCIENCE VOL 290
https://zhuanlan.zhihu.com/p/47304678
周志华，机器学习，清华大学出版社
南瓜书，https://datawhalechina.github.io/pumpkin-book/