1.流形学习
以下介绍三种常见的流形学习方法,他们的共同点在于:
1)都把数据最本质的结构信息编码在一个图的权值矩阵中;
2)优化问题的求解都可以转化为相似的特征值分解问题。
1.1 局部线性嵌入(LLE)
LLE的基本思想:数据点可能分布于一个非线性的的子流形上,但是每一个局部的邻域可能是线性的这种假设是合理的。所以可以通过线性的系数和相邻的patch来描述和重建每一个patch的局部几何。
假设x1, x2, xn为原始数据空间中的n个数据点,yi表示xi的低维映射,首先构建一个k近邻的图G, 其权值矩阵为M,则其重建误差为
通过求解特征值分解问题得到最优的嵌入。
1.2 ISOMAP
Let dM be the geodesic distance measure on M and d the standard Euclidean distance measure in Rm
ISOMAP的目标是找到一个欧几里得嵌入,使得Rm里面的欧几里得距离可以很好的逼近在流形M上的距离,即:
在真实的数据集中,潜在的流形M通常是未知的,因此测地距离也是未知的。所以为了发掘流形M的最本质的几何结构,做法如下:
1)在所有数据点上构建k近邻图G,来对局部的几何进行建模。
2)通过计算图G上的所有数据对的最短路径来估计在流形M上的所有数据点对之间的几何测地距离。
最优的嵌入也是通过特征值分解来求得。
1.3 Laplacian Eigenmap
拉普拉斯特征图方法是基于谱图理论的。给定一个带有权值矩阵W的p近邻的图G,W的定义和LE最优的映射通过解决以下优化问题得到:
最优的嵌入是通过广义的特征值分解来求得。
2. 图嵌入
图嵌入的一般问题:给定一个具有权值W的图G,具有n个顶点,每个顶点表示一个数据点,W是n×n的对称矩阵。
图嵌入的目标是:把图的每个顶点表示为一个低维的向量,该向量保存了顶点对之间的相似性,其中相似性通过边缘权值来度量。其优化问题为:
_ ——>>>>>
其中,L是拉普拉斯图。
因此,上述的三种流形学习的方法都可以使用图嵌入框架来解释,它们的区别在于W和D的不同选择。