降维在机器学习、数据挖掘、信息检索、模式识别等信息处理的许多领域具有重要作用。在监督的机器学习中, 如果在预测输出的时候有许多不必要的特征,会使得算法的性能下降。在机器学习、计算机视觉、模式识别等领域,一个很重要的问题是如何提取少数量的特征。对此,一种常用的解决方式是使用降维技术。
1. 已有降维方法分类
1)线性的:以PCA为代表, 缺点:要求数据嵌入在一个线性的空间。
2)非线性:基于流形学习的方法。缺点:低维空间到高维空间没有函数映射关系。
a)局部的方法:局部线性嵌入(Locally Linear Embedding ,LLE), Laplacian Eigenmap(LE)
b)全局的方法:ISOMAP
c)弥补缺点的方法: 显式寻找一个嵌入的函数,线性的或者核希尔伯特空间(kernel Hilbert space, RKHS),如基于回归和谱图的方法:谱回归(Spectral Regression,SR)
2. 谱回归
谱回归基于回归和谱图分析,流程如下:
1)首先,在标记和未标记的数据点上构造一个仿射图来发掘数据的判别结构。
2)其次,使用仿射图来学习标记和未标记数据点的响应。
3)获得响应之后,使用普通的回归来学习嵌入函数。
谱回归的优点:
1)把学习嵌入函数的问题转化为一个回归框架,避免了密集矩阵的特征值分解问题。不同的降维方法(LDA,LPP,NPE,LSDA等)的区别在于仿射图矩阵的构建。
2)使用回归作为构造的块基元,各种类型的正则化技术可以整合进谱回归,使得谱回归比较灵活。
3)SR适用于监督、非监督和半监督的情况。
4)SR可以在原始数据空间进行,也可以在生成的核希尔伯特空间进行,因此可以扩展到核SR。