一、基本信息
论文题目:《Nonlinear Dimensionality Reduction by Locally Linear Embedding 》
发表时间:Science 2000
论文作者及单位:
论文地址:http://science.sciencemag.org/content/290/5500/2323
二、摘要
许多科学领域的研究都需要对数据进行分析和可视化。因为数据一般都是大量且多变量的数据,直接处理十分麻烦,所以迫切需要一种能够对数据进行降维的方法,即发现高维数据的紧凑表示。在这里,我们介绍了局部线性嵌入(LLE),一种无监督的学习算法,用于计算高维输入的低维、邻域保护嵌入。与局部降维的聚类方法不同,LLE将其输入映射到一个低维的全局坐标系中,并且其优化不影响局部极小值。利用线性重构的局部对称性,LLE能够学习非线性流形的整体结构,如由人脸图像或文本文档生成的流形。
三、译文
对于降维问题,以前的方法是基于多维标度(MDS)(2),计算试图保持数据点之间的成对距离[或广义差异(3)]的嵌入;这些距离是沿着直线测量的,或者在更具权威性的MDS用法中,如Isomap(4),沿着限制于观测数据的流形表示的最短路径。在这里,我们采用一种不同的方法,称为局部线性嵌入(LLE),这种方法不需要估计广泛分离的数据点之间的成对距离。与以前的方法不同,LLE从局部线性拟合中恢复全局非线性结构。
如图2所示,LLE算法基于简单的几何直觉。假设数据由n个实值向量Xi组成,每个维度D都是从一些基础流形中采样的。如果有足够的数据(这样流形就可以很好地进行采样),我们希望每个数据点及其相邻点都位于流形的局部线性面片上或附近。我们用线性系数来描述这些斑块的局部几何特征,这些线性系数从相邻的数据点重建每个数据点。重建误差用损失函数来衡量公式(1)
它将所有数据点之间的距离平方和它们的重建相加。权重Wij表示第j个数据点对第i个数据点重建的贡献。为了计算权重Wij,我们最小化了受两个约束的代价函数:首先,每个数据点Xi仅从其邻居(5)重构,如果Xj不属于Xi的一组邻居,则强制Wij=0;第二,权重矩阵的行和为: