Locally linear embedding (LLE)算法简介



Locally linear embedding (LLE) (Sam T.Roweis and Lawrence K.Saul, Science,2000)是一种非线性降维方法,它能够使降维后的数据保持原有拓扑结构。   

原始特征的数量可能很大,或者说样本是处于一个高维空间中,通过映射或变换的方法,降高维数据降低到低维空间中的数据,这个过程叫特征提取,也称降维

   特征提取得基本任务研究从众多特征中求出那些对分类最有效的特征,从而实现特征空间维数的压缩。传统的降维技术可以分为线性和非线性两类。

(1)线性降维算法主要有PCA(Principal Component Analysis)、MDS(Multidimensional Scaling)及ICA;

(2)非线性降维算法主要有自组织影射网络(Self-organising map, 生成拓扑映射(Generative Topographic mapping), 主曲线和表面(Principal Curves and Surfaces), 自编码神经网络(Auto-encoder Neural Networks)和线性混合模型(Mixtures of Linear Models)。其中LLE,作为一种新的降维方法,既有非线性的特点,又有线性方法的优点,这几年成为人们研究的热点。

 LLE算法可以有图1所示的一个例子来描述。在图1所示中,LLE能成功地将三维非线性数据映射到二维空间中。如果把图1(B)中红颜色和蓝颜色的数据分别看成是分布在三维空间中的两类数据,通过LLE算法降维后,则数据在二维空间中仍能保持相对独立的两类。在图1(B)中的黑色小圈中可以看出,如果将黑色小圈中的数据映射到二维空间中,如图1(C)中的黑色小圈所示,映射后的数据任能保持原有的数据流形,这说明LLE算法确实能保持流形的领域不变性。由此LLE算法可以应用于样本的聚类。而线性方法,如PCA和MDS,都不能与它比拟的。LLE算法操作简单,且算法中的优化不涉及到局部最小化。该算法能解决非线性映射,但是,当处理数据的维数过大,数量过多,涉及到的稀疏矩阵过大,不易于处理。在图1中的球形面中,当缺少北极面时,应用LLE算法则能很好的将其映射到二维空间中,如图1中的C所示。如果数据分布在整个封闭的球面上,LLE则不能将它映射到二维空间,且不能保持原有的数据流形。那么我们在处理数据中,首先假设数据不是分布在闭合的球面或者椭球面上。

 

Locally <wbr>linear <wbr>embedding <wbr>(LLE)算法简介

 

图1 非线性降维实例:B是从A中提取的样本点(三维),通过非线性降维
算法(LLE),将数据映射到二维空间中(C)。从C图中的颜色可以看出
通过LLE算法处理后的数据,能很好的保持原有数据的邻域特性

    LLE算法是最近提出的针对非线性数据的一种新的降维方法,处理后的低维数据均能够保持原有的拓扑关系。它已经广泛应用于图像数据的分类与聚类、文字识别、多维数据的可视化、以及生物信息学等领域中。


1 LLE算法

    LLE算法可以归结为三步: (1)寻找每个样本点的k个近邻点;(2)由每个样本点的近邻点计算出该样本点的局部重建权值矩阵;(3)由该样本点的局部重建权值矩阵和其近邻点计算出该样本点的输出值。具体的算法流程如图2所示。

 

Locally <wbr>linear <wbr>embedding <wbr>(LLE)算法简介

 

图2 LLE算法流程

    算法的第一步是计算出每个样本点的k个近邻点。把相对于所求样本点距离最近的k个样本点规定为所求样本点的k个近邻点。k是一个预先给定值。Sam T.Roweis 和 Lawrence K.Saul算法采用的是欧氏距离,则减轻复杂的计算。然而本文是假定高维空间中的数据是非线性分布的,采用了diijstra距离。Dijkstra 距离是一种测地距离,它能够保持样本点之间的曲面特性,在ISOMAP算法中有广泛的应用。针对样本点多的情况,普通的dijkstra算法不能满足LLE算法的要求。

    LLE算法的第二步是计算出样本点的局部重建权值矩阵。这里定义一个误差函数,如下所示:

Locally <wbr>linear <wbr>embedding <wbr>(LLE)算法简介

 其中Locally <wbr>linear <wbr>embedding <wbr>(LLE)算法简介为x_i的k个近邻点,Locally <wbr>linear <wbr>embedding <wbr>(LLE)算法简介 x_i与x_ij之间的权值,且要满足条件:Locally <wbr>linear <wbr>embedding <wbr>(LLE)算法简介 。这里求取W矩阵,需要构造一个局部协方差矩阵 Locally <wbr>linear <wbr>embedding <wbr>(LLE)算法简介

Locally <wbr>linear <wbr>embedding <wbr>(LLE)算法简介

    将上式与Locally <wbr>linear <wbr>embedding <wbr>(LLE)算法简介相结合,并采用拉格朗日乘子法,即可求出局部最优化重建权值矩阵:

Locally <wbr>linear <wbr>embedding <wbr>(LLE)算法简介

附证明:

Locally <wbr>linear <wbr>embedding <wbr>(LLE)算法简介

     在实际运算中,Locally <wbr>linear <wbr>embedding <wbr>(LLE)算法简介可能是一个奇异矩阵,此时必须正则化,如下所示:

Locally <wbr>linear <wbr>embedding <wbr>(LLE)算法简介

其中r是正则化参数,I是一个kxk的单位矩阵。

    LLE算法的最后一步是将所有的样本点映射到低维空间中。w保持不变,映射条件满足如下所示:

Locally <wbr>linear <wbr>embedding <wbr>(LLE)算法简介

其中,Locally <wbr>linear <wbr>embedding <wbr>(LLE)算法简介为损失函数值,y_i是x_i的输出向量,Locally <wbr>linear <wbr>embedding <wbr>(LLE)算法简介是的k个近邻点,且要满足两个条件,即:

Locally <wbr>linear <wbr>embedding <wbr>(LLE)算法简介

其中I是m*m的单位矩阵。这里的Locally <wbr>linear <wbr>embedding <wbr>(LLE)算法简介可以存储在N*N的稀疏矩阵W中,当x_i是x_j的近邻点时,Locally <wbr>linear <wbr>embedding <wbr>(LLE)算法简介,否则,Locally <wbr>linear <wbr>embedding <wbr>(LLE)算法简介。则损失函数可重写为:

Locally <wbr>linear <wbr>embedding <wbr>(LLE)算法简介
Locally <wbr>linear <wbr>embedding <wbr>(LLE)算法简介

Locally <wbr>linear <wbr>embedding <wbr>(LLE)算法简介
Locally <wbr>linear <wbr>embedding <wbr>(LLE)算法简介
要使损失函数值达到最小, 则取Y为M的最小m个非零特征值所对应的特征向量。在处理过程中,将M的特征值从小到大排列,第一个特征值几乎接近于零,那么舍去第一个特征值。通常取第2到m+1 间的特征值所对应的特征向量作为输出结果。

参考:

[1] Nonlinear dimensionality reduction by locally linear embedding.Sam Roweis & Lawrence Saul.Science, v.290 no.5500 , Dec.22, 2000. pp.2323--2326.

[2] An Introduction to Locally Linear Embedding.Lawrence Saul & Sam Roweis.

转自:

  http://www.pami.sjtu.edu.cn/people/xzj/introducelle.htm

  http://blog.csdn.net/liulianfanjianshi/article/details/12426991

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
局部线性嵌入(Locally Linear EmbeddingLLE)是一种非线性降维算法,用于从高维数据中提取其低维流形结构。它通过保持数据点之间的线性关系来实现降维,而不是简单地保持数据的距离关系。 LLE的基本思想是假设高维数据的低维表示可以通过将每个数据点与其邻居点进行线性组合来构建。具体来说,LLE将每个数据点表示为其邻居点的线性组合,使得该点与其邻居点之间的欧氏距离达到最小。然后,通过在低维空间中重建每个数据点的线性组合关系,LLE可以实现数据降维并保持其局部结构。 LLE算法包括以下步骤: 1. 寻找每个数据点的邻居点:根据设定的邻居数量,通过计算距离选择每个数据点的最近邻居。 2. 重建每个数据点的线性组合关系:对于每个数据点,根据其邻居点的权重,通过最小化重建误差来确定每个数据点的线性组合关系。 3. 构建低维表示:通过求解一个关于低维表示的优化问题,将高维数据映射到低维空间中。 LLE的优点是能够保持数据的局部结构,并且对噪声和非线性变换具有较好的鲁棒性。然而,LLE也存在一些缺点,如对邻居数量和权重的选择敏感,容易产生过拟合问题,并且计算复杂度较高。 总之,局部线性嵌入是一种通过保持数据点之间的线性关系来实现降维的非线性降维算法。它是一种有力的工具,可用于理解和分析高维数据集的结构。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值