在各种机器学习方面的运用中,我门通常需要对高维数据进行处理,然而不是所有的数据特征都是有用的,通常包含大量的无关特征与冗余特征。(
无关特征:是指与当前学习任务无关的特征(该特征所提供的信息对于当前学习任务无用),如对于学生成绩而言,学号则是无关特征。
冗余特征:是指该特征所包含的信息能从其他特征推演出来,如对于“面积”这个特征而言,从能从“长”和“宽”得出,则它是冗余特征。)在对这类数据进行分析学习之前一般需要进行降维处理,而降维包括特征提取与特征选择,前者通过对原始特征的一系列变换生成新的特征空间,而特征选择并不改变原始特征。相较于特征变换,特征选择尤其适用于那些需要保持原始特征的意义以及确定特定特征的重要程度的情况下,同时,一旦选定了特定的特征,我们只需收集或计算选定的特征,并不需要像特征变换的方法需要所有的原始特征来计算数据的低维表示。
特征选择算法其实就是求解在离散空间中的NP-hard优化问题,而特征提取是在连续的特征空间中求解优化问题,我们可以
基于特征提取准则将特征选择松弛为一个连续优化问题。
传统的对于特征变换和特征选择这两种降维方式的研究是完全分裂开来的,其实,它们之间存在这一定的联系,可将将特征变换过程转化为特征选择方法。
原始数据集可表示为X = [x1, x2, . . . , xn]T,n为样本个数,每一样本 xi∈ Rd,在线性降维方法中(例如LDA),其目的是找到一转换矩阵W = [w1, w2, . . . , wq ] ∈ Rd×q,将原始的高维数据xi转换为低维形式 yi= WTxi,根据一定的判断准则,特征提取方法需优化J (X W )。而特征选择的实现可在
J (X W )的基础上增加一项对W的约束项,可表示为:
通过对上式的优化求解,可使矩阵W变得行稀疏,同时对应所选的特征数,正则化参数λ控制这准则 J (X W )与稀疏性的平衡关系,增大λ的值意味着增加矩阵W的稀疏性,同时移除更多的特征。在极限情况下,当λ取值为零时,意味着选取所有的特征,相应的,当λ取值较大时,所有特征都不选取,此时W ≡ 0。所以,
λ取值从零到无穷大的过程可理解为选择的特征数从d到零。