一、前言
1、流形:局部与欧式距离同胚的空间,即它在局部具有欧式空间的性质,能用欧式距离进行距离计算
2、降维思想:低维流形嵌入高维空间,整体复杂但局部保持欧式空间性质,可在局部建立降维映射关系,再将该局部映射关系推广的全局以达到降维效果
3、著名的两种流形学习方法:等度量映射Isomap、局部线性嵌入LLE
二、等度量映射
1、基本出发点:低维流形嵌入高维空间之后,直接在高维空间中计算直线距离具有误导性,因为高维空间中的直线距离在低维嵌入流形上是不可达的
2、测地线距离:低维嵌入流形上两点的距离,即该两点之间的本真距离,而非两点在高维空间中的直线距离
3、思路:利用流形在局部上与欧式空间同胚这个性质,对每个点基于欧式距离找出近邻点,建立一个近邻连接图,测地线距离就转变为该图上两点之间的最短路径问题。
4、最短路径算法:单源最短路径Dijkstra算法和Floyd算法
5、算法流程
a) MDS(Multiple Dimensional Scaling,多维缩放)算法为低维嵌入的一种经典的降维方法。
b) 对于新样本,我们通常训练一个回归学习器对新样本的低维空间坐标进行预测(权宜之计)
6、近邻图构建
a) K近邻图:指定近邻点个数,例如欧式距离最近的k个点为近邻点,以此建立近邻图
b) 近邻图:指定距离阈值,距离小于的点被认为是近邻点,以此构建近邻图
7、可能出现的问题
a) “短路”问题:近邻范围过大,距离远的点也被误认为近邻点
b) “断路”问题:近邻范围过小,有些区域可能与其他区域不存在连接
三、局部线性嵌入
1、局部线性嵌入(Locally Linear Embedding, LLE)试图保持邻域内样本之间的线性关系,即LLE希望在低维空间中保持关系:
2、公式推导
a) 计算线性重构系数的目标函数:
b) 有闭式解: ,其中
c) 根据LLE优化目标,可得同形目标函数:,其中 为 的低维坐标
d) 矩阵形式重写:,其中 ,
e) 上式对M进行特征值分解,提取最小的前k个特征值对应的特征向量组成的矩阵即
3、算法流程