Backward Elimination,Forward Selection和Stepwise这三种是特征选择中经常用到的方法。当有时候特征的数量太多的时候,我们除了可以用PCA等方法降维之外,还可以用特征选择的方法,筛选出几个对结果影响最大的特征(feature),从而在对结果影响不大的情况下,减少计算量。
Backward Elimination的方法很简单:
首先包含了所有的feature,然后每个feature都尝试去删除,测试删除的哪个feature对模型准确性有最大的提升,最终删掉对模型提升最高的一个特征。如此类推,直到删除feature并不能提升模型为止。
Forward Selection则完全相反,一个一个加进去。
相对于Forward Selection,Backward Elimination的优点在于,其允许一些低贡献值的特征能够进到模型中去(有时候低贡献值的特征能在组合中有更大的贡献值,而Forward Selection忽略了这种组合的可能性),因此Backward Elimination能够避免受一两个占主导地位的特征的干扰。
Stepwise则是结合上述两者的方法,当一个feature新加入后,stepwise会尝试删去一个feature,直至达到某个预设的标准。这种方法的缺点是,预设的标准不好定,而且容易陷入到过拟合当中。