论文链接:Hybrid Subspace Learning for High-Dimensional Data
1. Abstract
真实世界中,高维数据是一个非常普遍的问题。在高维空间中学习一个紧的,低维子空间的数据表达有助于区分信号和噪声。PCA
方法是假设数据是可以被一个或多个隐藏的子空间的嵌入来表达。但是,在许多高维数据中,这种处理方法是不合适的。常常是只有某些变量可以经过线性转换投影到低维空间。论文提出了一种混合的降维技巧:部分变量投影到低维子空间,另外一部分变量保留。文章提出的模型能够更加准确地估计隐藏空间,并且有较低的恢复误差。
2. Introduction
高维数据经常出现在生物医学中,比如基因表达数据(每个人基因表达数据的测量耗费较大)。一些传统的机器学习算法缺失有效的统计性能去区分信号和噪声。
缓和维度灾难的方法包括提取原始特征中的一个子集,或者学习一个新的子空间(原始特征空间的投影)。论文提出的方法主要是学习数据在隐藏子空间的表达,这个表达能够最大程度的原始数据的信息。
现存的子空间学习方法最大的限制在于它们假设数据可以通过嵌入一些低维子空间来完全表示。真实世界中,可能只有某个特征子集才会呈现出低维空间结构,而其余的特征仍然保留,而并非全部特征。显然,如果某些特征 { F i } \{F_i\} { Fi} 与其它特征完全不相关,而使用降维算法在学习潜在子空间时,子空间的每个维度都会带有 { F i } \{F_i\} { Fi}。事实上,这个特征集 { F i } \{F_i\} { Fi} 不应该带入潜在子空间的学习上。
如下图Fig1,两幅图都呈现出2维的子空间结构,但是第一幅图的2维子空间每个维度都是 x 1 , x 2 , x 3 {x_1,x_2,x_3} x