0. 摘要
1. LPP的基本思想
LPP是一种线性降维算法,其基本思想是:
1)首先构建了一个融合了数据邻域信息的图;
2)然后根据图的拉普拉斯的概念,可以计算一个变换矩阵;
3)最后通过该变换矩阵把数据映射到子空间。
在某种程度上,该变换最优地保留了局部邻域信息。
通过该算法得到的表示map可视为:对一个连续的map(来自流形几何)的线性离散逼近。
2. LPP的特点
1)LPP的映射map是设计来从经典的线性技术最小化不同的目标函数准则。
2)LPP具有保局特性,该特性在信息检索领域可能非常有用。当我们希望在向量空间模型下检索音频、视频和文本文档时,最终也需要在一个低维的空间去做近邻搜索。由于LPP是设计来保留局部结构的,所以在低维空间的近邻搜索结果跟高维空间的结果很有可能的相似的。这样有利于快速检索。
3)LPP是线性的,在实际应用中非常高效。尽管许多非线性的技术具有特性1)和2),但是没有其他线性技术具有这样的高效性。此外,LPP可以发掘出数据流形的非线性结构。
4)LPP在任意处都有定义。回顾一些诸如ISOMAP,LLE和拉普拉斯特征图之类的非线性降维算法,它们只能在训练数据点上定义,对于一个新的测试点,如何去估计它的map是不清楚的。相反,LPP可以简单应用于任何新的数据点,可以在降维后的子空间去找到它。
5)LPP既可以在原始数据空间进行,也可以把数据映射到核希尔伯特空间再进行,因为可以进行非线性扩展,衍生出核LPP。
综上,基于LPP的技术有望于代替基于PCA的技术,用于数据分析、信息检索和模式分类应用中。
3. LPP的数学描述
3.1 线性降维问题
3.2 LPP算法流程
LPP是对非线性拉普拉斯特征图的线性逼近。算法流程如下:
1)构建邻接图G
以上两种构建邻接图的方法只有在数据确实位于一个低维的流形空间的情况下才是正确的。然而,通常情况下,人们可能会使用更多功利主义,基于一些准则构建邻接图。一旦获得了邻接图,LPP就试图去通过选择映射来最优保留。
2)选择权值W
W是一个稀疏的、大小为m×m的对称矩阵,如果顶点i和j相连接,则权值为Wij,否则为0。具有如下两种形式的变种。
3)特征图
计算广义特征值分解问题的特征值和特征向量:
4. 证明
4.1 最优线性嵌入
4.2 几何证明
4.3 核LPP