这篇文章是Wang Chang的论文《Manifold Alignment Preserving Global Geometry》
这篇论文提出一种保持全局结构的流形对齐算法。
之前的流形对齐算法都是保持输入流形的局部几何结构,而本文的方法在降维过程中保持测地距离(全局结构)。
因为保持邻域关系的算法不足以应用到更多邻域,如数据挖掘,为了解决这个问题,我们提出一种新的流形对齐结构,同时匹配对应实例和全局距离。方法使用距离矩阵D,而不是拉普拉斯矩阵来表示链接流形。
此方法有两方面的贡献:
- 提供利用距离矩阵构造流形的链接模型模型的方法
- 能够从输入模型中学习到一个低维映射函数,这个映射函数将输入流形映射共同的潜在低维空间并且保持每个流形的全局结构。
其中的思想基于ISOMAP/MDS和Isometric projections。
和保持局部结构的流形对齐方法一样,它也有实例层和特征层两种解决方案。
Notation
本节给出文中所用到的符号表示。
X和Y分别是高维样本的采样,
是已知对应点,Da,Db分别是各自流形上已知对应关系的样本之间的距离,Dxx和Dyy是X和Y流形上样本点之间的距离。Dxy表示两个流形之间的距离,求解过程在后面给出。
我们的目的是构造映射矩阵(函数)
和
将X和Y映射到共同的低维空间。
The Problem
给定集合
的距离矩阵A,Aij表示Xi和Xj样本之间的距离。定义
,这里
假设D是一个(m+n)*(m+n)的距离矩阵,表示
实例两两之间的距离。保持全局几何结构的对齐模型的损失函数定义如下
Construct D to Represent the Joint Manifol
step1. 计算尺度因子:
由于数据集之间的距离的尺度不不一致,要构建X和Y的连接流形,需要学习一个优化的尺度因子
。Dxx和
Dyy被缩放到同一个空间中。
首先,通过已知对应点的距离矩阵Da和Db计算
, 即最小化
, 则
的计算公式如下:
因为:
step2: 调整数据集Y:
step3: 计算不同域之间的距离矩阵Dx,y
这个公式的意思是,两个流形中样本之间的距离定义为X和Y流形中未知对应关系的样本和已知对应关系的样本点之间距离和的最小值。
这样,我们就的到了完整的联合距离矩阵D
接下来,描述一个完整的算法步骤:
The Algorithm
1. 调整Y数据集的尺度:
2. 创建距离矩阵D, 构造链接模型
3. 寻找X与Y之间的对应关系:计算下式中
前d个最大的特征值对应的特征向量
4. 构造映射矩阵
和
, 将X,Y投影到d维空间中:低维空间的表示为:
和
,这里
在保持局部的对齐模型中,通常使用一个数值参数
平衡对齐过程中流形内部和流形之间权值的比例关系,
值由手工设定。而在这个算法中不需要。
这里只说了在特征层的对齐,这个算法还可以用在实例层。在实例层,求解,所得到的结果即是两个流形低维映射结果。其余做法与特征层一样。
文章链接:
http://ijcai.org/papers13/Papers/IJCAI13-258.pdf
作者的主页中也有提供。