Think Globally, Fit Locally ——博客开篇

最新推荐文章于 2023-02-16 14:35:27 发布

Yujia_Tang

最新推荐文章于 2023-02-16 14:35:27 发布

阅读量1.2k

点赞数

本文链接：https://blog.csdn.net/adatec/article/details/18000881

版权

读书笔记专栏收录该内容

1 篇文章

订阅专栏

前言：

1. 首先应假设数据不是分布在闭合的球面或椭球面上

2. LLE是最新提出的非线性降维方法，该算法既具有处理非线性数据的优点又有线性降维方法计算性能得优越性。简单讲，该方法是将高维流形用平面代替，然后在低维中重新拼合出来，且要求保留各点之间的拓扑关系不变。整个问题最后被转化为两个二次规划的问题。

无指导学习的两大目的：

1. 密度估计：学习概率模型的参数

2. 降维：用更简洁但不失重要信息的方法描述

本文采用非概率、非参数、非线性、无先验知识的方法实现降维。

两种经典的线性方法：

1. PCA：从covariancematrix的最大特征向量开始，计算variance的最大线性投影。

2. MDS：计算低维嵌入，该嵌入保存了成对数据间在高维中的距离。

经典方法的问题：PCA或MDS将远点映射到近处，在局部或全局几何上产生扭曲。

LLE的优点：

1. 非线性，能成功的还原低维流形。

2. nearby points in the high dimensionalspace remain nearby and similarly co-located with respect to one another in thelow dimensional space

算法：

1.inputs：N个D维实数向量 $\overrightarrow{X_i}$

2.condition：well-sampled:对于d维流形采样的数据，每个样本附近有2d个样本，共同构成一个平面。

3.LLE算法命名：local，只有近邻才贡献给每一个点的重建；linear，线性子空间。

4.costfunction：

$\epsilon(W)=\sum\limits_{i}\Big\lvert\overrightarrow{X_i}-\sum\limits_{j}{W_{ij}\overrightarrow{X_i}}\Big\rvert^{2}$

5.embeddingcost function：

$\Phi(Y)=\sum\limits_{i}\Big\lvert\overrightarrow{Y_i}-\sum\limits_{j}{W_{ij}\overrightarrow{Y_i}}\Big\rvert^{2}$

求解权值W时，需要使4式的代价函数 $\epsilon(W)$ 最小，因此对于每一个数据点 $X_i$ 构造一个k×k的局部协方差矩阵 $Q^i$ ，其中任意元素为：

其中 $\eta$ 是 $X_i$ 的近邻。结合约束条件 $\sum\limits_{i=1}^k{W_{ij}}=1$ ，利用拉格朗日乘子法，可以求出局部最优化线性重构权值矩阵：

通常， $Q^i$ 是奇异矩阵，需要对其正则化。引入一个正则化参数，

$Q_{mn}^i=(X_i-\eta_m)(X_i-\eta_n)$

对于5式，可以写成以下形式：

$W_{ij}=\dfrac{\sum\limits_{m=1}^k{(Q_{jm}^i)^{-1}}}{\sum\limits_{p=1}^k\sum\limits_{q=1}^k{(Q_{pq}^i)^{-1}}}$

其中，I是单位矩阵， $Y_i$ 、 $W_i$ 、 $I_i$ 分别是矩阵Y、W、I的第i列。

根据矩阵迹的性质

$\sum\limits_i\Big\lvert a_i\Big\rvert^{2}=\sum\limits_i a_i^T a_i=trace(A^T A)=\Big\lvert A\Big\rvert^2$

可以得到：

$\Phi(Y)=\Big\lvert Y(I-W)\Big\rvert=trace(YMY^T)$

其中，M为N×N矩阵， $M_{ij}=\delta_{ij}-W_{ij}-W_{ji}+\sum\limits_k W_{kj}W_{ij}$ ，如果i=j， $\delta=1$ ，否则 $\delta=0$

最后，用拉格朗日乘子法对代价函数进行约束可得到：

$MY^T=\lambda Y^T$

要使代价函数最小，应该取M的最小d个最小特征值对应的最小特征向量。

算法说明：

1. 一个比喻：用剪刀将高维的k个近邻小块剪下，再把他们在低维排列出来，并保持其尺度、旋转、平移不变。

2. 期望Y能符合X的近邻关系，而这个近邻关系已被体现在 $W_{ij}$ 之中。故，对于 $\Phi(Y)$ 而言，W是输入而 $Y_i$ 是输出

3. 输入 $\vec{X}$ 数据之间的信息，被转化进 $W_{ij}$ ， $W_{ij}$ 保存了输入的信息传递给在低维重建的输出中

参考文献

1. Saul L K, Roweis S T. Think Globally, Fit Locally: UnsupervisedLearning of Low Dimensional Manifolds. Journal of Machine Learning Research,2003, 4(4):119-155

2. 王朝. 基于流行学习的人脸识别算法研究. 硕士学位论文