1. 流形学习 (Manifold Learning)
流形学习(manifold learning)是机器学习、模式识别中的一种方法,在维数约简方面具有广泛的应用。它的主要思想是将高维的数据映射到低维,使该低维的数据能够反映原高维数据的某些本质结构特征。流形学习的前提是有一种假设,即某些高维数据,实际是一种低维的流形结构嵌入在高维空间中。流形学习的目的是将其映射回低维空间中,揭示其本质[1]。
如下图所示为一种形象的解释。
因为只有在同一维度中,欧氏距离才具有比较好的比较的意义,在上面这样的高维空间中用欧式距离并不能将不同的点进行很好的区别。在流形学习中认为上面这种情况实际上是将高维的数据硬塞进了一个低维的空间,所以这个时候我们应该将这个高维数据摊平,以便于后面的聚类或者接下来的有监督学习,更常用的是将它们进行可视化。
接下来将介绍局部线性嵌入(Locally Linear Embedding,LLE),拉普拉斯特征映射(Laplacian Eigenmaps)和t分布随机邻居嵌入(T-distributed Stochastic Neighbor Embedding,t-SNE)三种方法,这三种都是对高维数据进行降维的方法,。
2. 局部线性嵌入(Locally Linear Embedding,LLE)
如下图所示,首先对于某一个数据点 xi 选择它附近的若干个点 xj ,用 wij