流形学习方法的优缺点:
优点:能够找到隐藏在高维数据中的低维嵌入、特别是针对非线性分布的数据。
缺点:没有显示的投影矩阵,对新加入的样本必须重新进行操作。
步骤:
1、构造样本点的局部领域
2、得到局部流形结构
3、构造全局优化模型
4、全局低维表示
主要代表性算法:分为全局和局部流形方法;全局主要有ISOMAP、局部主要有LLE、LE、LTSA、SMCE。
ISOMAP:主要原理(保持所有样本点之间的测地距离不变,测地距离:对于近邻点,直接计算欧式距离;对于非近邻,利用近邻图上两点之间的最短路径近似测地距离。)
(1)寻找局部邻域,构造近邻图;
(2)然后根据Floyd算法,计算出任意两点之间的最短距离;
(3)构建全局模型(保持降维前后距离不变);
(4)得到全局低维嵌入。
优点:如果高维观测数据所在的低维流形与欧式空间的一个子集等距,且与样本所在流形等距的欧式空间的子集是一个凸集,那么ISOMAP变现结果很好,如果流形曲率很大或者流形上有空洞,则结果会变形。
缺点:计算复杂度很大,当样本很多时,复杂度体现在两个方面,首先是距离的计算,最后是对距离矩阵的分解。
LLE:主要原理(保持近邻重构权重不变)
(1)寻找局部邻域,构造近邻图;
(2)构造全局优化模型(保持降维前后邻接矩阵不变);
(3)得到全局低维嵌入;
优点:计算复杂度小
缺点:对于采样于稀疏的样本,嵌入结果很差(不太理解)。
LE:主要原理(保持近邻不变)
(1)寻找近邻,构造近邻图;
(2)构造全局优化模型(保持降维前后近邻不变)
(3)得到低维嵌入
优点:计算复杂度小
缺点:对噪声敏感
LTSA:主要原理(保持切空间不变)
(1)寻找近邻,构建邻域切空间(局部邻域切空间近似邻域协方差的特征向量)
(2)构造优化模型(用切空间重构低维坐标)
(3)得到低维嵌入
优点:计算复杂度小
缺点:对样本点的密度和曲率比较敏感
SMCE:主要原理(主要是找到一个权重矩阵,然后用LLE或者LE方法得到低维嵌入)
(1)自动找到近邻,并且近邻就是出于同一个流形上的
(2)构造每个流形内部的权重
(3)采用LLE或者LE得到低维嵌入
优点:能够自动的找到样本的近邻,同时能够找到样本点存在的多个低维流形结构
缺点:未知