转自:http://www.pami.sjtu.edu.cn/people/xzj/introducelle.htm
http://www.cs.nyu.edu/~roweis/lle/algorithm.html
http://axon.cs.byu.edu/Dan/678/miscellaneous/Manifold.example.pdf
1 LLE介绍
Locally linear embedding (LLE) (Sam T.Roweis and Lawrence K.Saul, 2000)以及Supervised locally linear embedding (SLLE) (Dick and Robert, 2002) 是最近提出的非线性降维方法,它能够使降维后的数据保持原有拓扑结构。
LLE算法可以有图1所示的一个例子来描述。在图1所示中,LLE能成功地将三维非线性数据映射到二维空间中。如果把图1(B)中红颜色和蓝颜色的数据分别看成是分布在三维空间中的两类数据,通过LLE算法降维后,则数据在二维空间中仍能保持相对独立的两类。在图1(B)中的黑色小圈中可以看出,如果将黑色小圈中的数据映射到二维空间中,如图1(C)中的黑色小圈所示,映射后的数据任能保持原有的数据流形,这说明LLE算法确实能保持流形的领域不变性。由此LLE算法可以应用于样本的聚类。而线性方法,如PCA和MDS,都不能与它比拟的。LLE算法操作简单,且算法中的优化不涉及到局部最小化。该算法能解决非线性映射,但是,当处理数据的维数过大,数量过多,涉及到的稀疏矩阵过大,不易于处理。在图1中的球形面中,当缺少北极面时,应用LLE算法则能很好的将其映射到二维空间中,如图1中的C所示。如果数据分布在整个封闭的球面上,LLE则不能将它映射到二维空间,且不能保持原有的数据流形。那么我们在处理数据中,首先假设数据不是分布在闭合的球面或者椭球面上。
图1 非线性降维实例:B是从A中提取的样本点(三维),通过非线性降维
算法(LLE),将数据映射到二维空间中(C)。从C图中的颜色可以看出
通过LLE算法处理后的数据,能很好的保持原有数据的邻域特性
LLE算法是最近提出的针对非线性数据的一种新的降维方法,处理后的低维数据均能够保持原有的拓扑关系。它已经广泛应用于图像数据的分类与聚类、文字识别、多维数据的可视化、以及生物信息学等领域中。
2 LLE算法
LLE算法可以归结为三步: (1)寻找每个样本点的k个近邻点;(2)由每个样本点的近邻点计算出该样本点的局部重建权值矩阵;(3)由该样本点的局部重建权值矩阵和其近邻点计算出该样本点的输出值。具体的算法流程如图2所示。
图2 LLE算法流程
算法的第一步是计算出每个样本点的k个近邻点。把相对于所求样本点距离最近的k个样本点规定为所求样本点的 个近邻点。k是一个预先给定值。Sam T.Roweis 和 Lawrence K.Saul算法采用的是欧氏距离,则减轻复杂的计算。然而本文是假定高维空间中的数据是非线性分布的,采用了diijstra距离。Dijkstra 距离是一种测地距离,它能够保持样本点之间的曲面特性,在ISOMAP算法中有广泛的应用。针对样本点多的情况,普通的dijkstra算法不能满足LLE算法的要求。
LLE算法的第二步是计算出样本点的局部重建权值矩阵。这里定义一个误差函数,如下所示:
其中 为 的k个近邻点, 是 与 之间的权值,且要满足条件: 。这里求取W矩阵,需要构造一个局部协方差矩阵 。
将上式与相结合,并采用拉格朗日乘子法,即可求出局部最优化重建权值矩阵:
在实际运算中,可能是一个奇异矩阵,此时必须正则化,如下所示:
其中r是正则化参数,I是一个kxk的单位矩阵。
LLE算法的最后一步是将所有的样本点映射到低维空间中。映射条件满足如下所示:
其中,为损失函数值,是的输出向量,是的k个近邻点,且要满足两个条件,即:
其中I是的单位矩阵。这里的可以存储在的稀疏矩阵W中,当是的近邻点时,,否则,。则损失函数可重写为:
其中M是一个的对称矩阵,其表达式为:
要使损失函数值达到最小, 则取Y为M的最小m个非零特征值所对应的特征向量。在处理过程中,将M的特征值从小到大排列,第一个特征值几乎接近于零,那么舍去第一个特征值。通常取第间的特征值所对应的特征向量作为输出结果。
SLLE算法
Dick和Robert提出一种针对有监督的LLE算法,即SLLE。传统的LLE算法在第一步时是根据样本点间的欧氏距离来寻找 个近邻点。而SLLE在处理这一步时,增加了样本点的类别信息。SLLE的其余步骤同LLE算法是一致的。
SLLE算法在计算点与点之间的距离时,采用如下公式:
其中是计算后的距离;在本文中是定义为dijkstra距离;是表示类与类之间的最大dijkstra距离;取0或者1,当两点属于同类时,取为0,否则取1;是控制点集之间的距离参数,是一个经验参数。当取为零时,此时的SLLE和LLE算法相同。
SLLE参数设置
SLLE算法中有4个参数需要设置,即近邻点的个数k 、输出维数m 、正则化参数r和距离参数。k的选取在算法中起到关键因素,如果k取值太大,LLE不能体现局部特性,使得LLE算法趋向于PCA算法;反之取得太小,LLE便不能保持样本点在低维空间中的拓扑结构。本文中k没有作出进一步的改进,相当于一个经验参数,预先取值为12。
本文的输出维数m,采用类似于PCA算法求取固有维数。SLLE算法在计算每个样本点的重建权值矩阵时,都要构造一个局部协方差矩阵,可以通过如下式子求出该样本点的输出维数。
其中为的特征值,且以从大到小排列。对于每个样本点,都需要计算一次样本点的输出维数。所有点输出维数的平均值规定为样本的输出维数。
正则化参数r可以取一个特别小的值,或者采用自适应调整的方法得到。当采取自适应调整的办法来选定r的值。对于每个样本点,都要校正矩阵,此时正则化参数采取如下式子:
其中为的最小的个特征值。
距离参数是一个经验参数。在求取点间的距离时,可以增加不同类点之间的距离,从而增加类类之间的距离。
SLLE的测数数据处理
设训练样本为,训练样本的输出为,为训练样本的维数,m为训练样本的输出维数,N为训练样本的个数。设为测试样本的集合。主要算法分为三步:
(1)选取一个,将x加入X矩阵中,则X变为的矩阵。在训练样本中寻找的k个近邻点,此时还时采用dijkstra距离,但是不能像SLLE算法那样加上样本点的类别信息。
(2)求与其k个近邻点间的权值系数,且满足以下条件:
其中是的k个近邻点,是与其近邻点之间的权值。
(3)计算的输出向量:
其中为的输出向量。
参考文献:
[1] Sam T. Roweis and Lawrence K. Saul. Nonlinear Dimensionality Reduction by Locally Linear Embedding, Science, Dec 22 2000:2323-2326
[2] Lawrence K.Saul, Sam T.Roweis. An Introduction to Locally Linear Embedding. http://www.cs.toronto.edu/~roweis/lle/, 2001
[3] Lawrence K.Saul, Sam T.Roweis. Think Globally, Fit Locally: Unsupervised Learning of Low Dimensional Manifolds. Journal of Machine Learning Research 4(2003) 119-155
[4] Dick de Ridder, Olga Kouropteva, Oleg Okun, et al. Supervised locally linear embedding. Artificial Neural Networks and Neural Information Processing, ICANN/ICONIP 2003 Proceedings, Lecture Notes in Computer Science 2714, Springer, 333-341
[5] Kouropteva O, Okun O & Pietik?inen M. Classification of handwritten digits using supervised locally linear embedding algorithm and support vector machine. Proc. of the 11th European Symposium on Artificial Neural Networks (ESANN'2003), April 23-25, Bruges, Belgium, 229-234
[6] Kouropteva O, Okun O & Pietik?inen M. Supervised Locally Linear Embedding Algorithm for Pattern Recognition. IbPRIA 2003: 386-394
3.LLE Algorithm Pseudocode
nput X: D by N matrix consisting of N data items in D dimensions.
Output Y: d by N matrix consisting of d < D dimensional embedding coordinates for the input points.
- Find neighbours in X space [b,c].
for i=1:N compute the distance from Xi to every other point Xj find the K smallest distances assign the corresponding points to be neighbours of Xi end
- Solve for reconstruction weights W.
for i=1:N create matrix Z consisting of all neighbours of Xi [d] subtract Xi from every column of Z compute the local covariance C=Z'*Z [e] solve linear system C*w = 1 for w [f] set Wij=0 if j is not a neighbor of i set the remaining elements in the ith row of W equal to w/sum(w); end
- Compute embedding coordinates Y using weights W.
create sparse matrix M = (I-W)'*(I-W) find bottom d+1 eigenvectors of M (corresponding to the d+1 smallest eigenvalues) set the qth ROW of Y to be the q+1 smallest eigenvector (discard the bottom eigenvector [1,1,1,1...] with eigenvalue zero)