在阅读超分辨率重建相关文献的时候,经常会见到流形学习这么个词,今天整理了一下
以下内容摘自百度:http://baike.baidu.com/link?url=bt9Cv9MtYOgqGcTcT7ZJp19ezCOj-eNVVIZOru18VlkuM4Yo9jE3Tmx_NpRFJUruoxBj-5A33_Y3qviRaLaKrnWt_UJd2W0vy-c4ifvuan3CDSAHQrB9NxTawLifygD7
流形学习方法(Manifold Learning),简称流形学习,自2000年在著名的科学杂志《Science》被首次提出以来,已成为信息科学领域的研究热点。在理论和应用上,流形学习方法都具有重要的研究意义。
定义
假设数据是均匀采样于一个高维欧氏空间中的低维
流形,流形学习就是从高维采样数据中恢复低维流形结构,即找到高维空间中的低维流形,并求出相应的嵌入映射,以实现维数约简或者数据可视化。它是从观测到的现象中去寻找事物的本质,找到产生数据的内在规律。
分类
流形学习方法是模式识别中的基本方法,分为线性流形学习算法和非线性流形学习算法,非线性流形学习算法包括等距映射(Isomap)
[1]
,拉普拉斯特征映射(Laplacian eigenmaps,LE)
[2]
,局部线性嵌入(Locally-linear embedding,LLE)
[3]
等。而线性方法则是对非线性方法的线性扩展,如主成分分析(Principal component analysis,PCA),多维尺度变换(Multidimensional scaling,MDS)等。
Isomap
Isomap由麻省理工学院计算机科学与人工智能实验室的JoshTenenbaum教授于2000在Science杂志上提出
[1]
。Isomap的主要目标是对于给定的高维流形,欲找到其对应的低维嵌入,使得高维流形上数据点间的近邻结构在低维嵌入中得以保持。Isomap以MDS(Multidimensional Scaling)为计算工具,创新之处在于计算高维流形上数据点间距离时,不是用传统的欧式距离,而是采用微分几何中的测地线距离(或称为曲线距离),并且找到了一种用实际输入数据估计其测地线距离的算法(即图论中的最小路径逼近测地线距离)。
Isomap的优点在于:
-
求解过程依赖于线性代数的特征值和特征向量问题,保证了结果的稳健性和全局最优性;
-
能通过剩余方差判定隐含的低维嵌入的本质维数;
-
Isomap方法计算过程中只需要确定唯一的一个参数(近邻参数k或邻域半径e)。
LE
LE(Laplacian eigenmaps)的基本思想是,用一个无向有权图描述一个流形,然后通过用图的嵌入(graph embedding)来找低维表示。简单来说,就是在保持图的局部邻接关系的情况下,将其图从高维空间中重新画在一个低维空间中(graph drawing)。
在至今为止的流形学习的典型方法中,LE速度最快,但是效果相对来说不理想。
LLE
-
寻找每个样本点的k个近邻点;
-
由每个样本点的近邻点计算出该样本点的局部重建权值矩阵;
-
由该样本点的局部重建权值矩阵和其近邻点计算出该样本点的输出值。具体的算法流程如下图所示。
PCA
主成分分析(PCA)被认为是一种特别成功的特征提取和降维算法。它的原理是,利用对原来的变量进行线性组合而得到新的变量(主成分),这些变量之间的方差最大。因为数据原来的变量之间有可能差距不大,描述的内容差不多,故效率低下。换句话说,我们可能说了很多话,但是却在讲同一件事情。由于方差在数据中描述的变量之间的差距,故方差最大也就意味着新的变量之间有比较大的差距。这样,就可以以较高的效率描述数据。
MDS
与PCA类似,多维尺度分析(
MDS)的目的也是把观察的数据用较少的维数来表达。然而,MDS利用的是成对样本间相似性构建合适的低维空间,使得样本在此空间的距离和在高维空间中的样本间的相似性尽可能的保持一致。
[6]
MDS方法有5个关键的要素,分别为主体、客体、准则、准则权重、主体权重。具体定义为:
-
客体:被评估的对象。可以认为是待分类的几种类别。
-
主体:评估客体的单位。就是训练数据。
-
准则:根据研究目的自行定义,用以评估客体优劣的标准。
-
准则权重:主体衡量准则重要性后,对每个准则分别赋予权重值。
-
主体权重:研究者权衡准则重要性后,对主体赋予权重值。
这里找到个浙大的PPT,大家可以看一看
http://www.cad.zju.edu.cn/reports/%C1%F7%D0%CE%D1%A7%CF%B0.pdf