维基百科定义:
在机器学习和统计学中,特征选择(英语:feature selection)也被称为变量选择、属性选择或变量子集选择。 它是指:为了构建模型而选择相关特征(即属性、指标)子集的过程。
特征选择的目标是寻找最优特征子集。特征选择能剔除不相关(irrelevant)或冗余(redundant )的特征,从而达到减少特征个数,提高模型精确度,减少运行时间的目的。另一方面,选取出真正相关的特征简化模型,协助理解数据产生的过程。
特征选择方法通常分为一下三类:
过滤法(Filter)
过滤式方法对数据集进行特征选择,然后再训练学习器。特征选择过程与后续学习器无关。这相当于先用特征选择过程对特征进行了过滤,然后再用过滤后的特征来训练模型。此过程中不会借用分类模型来完成。 方法:设计一个“相关统计量”来度量特征的重要性。设统计量是一个特征向量,每个分量对应一个特征。特征子集的重要性是所选择的特征重要性之和。 优点:可以较容易的从低维数据扩展到高维数据。计算效率高。 缺点:由于特征和特征的评价是一个一个的进行评价,所以不考虑特征之间的交互作用,倾向于选择冗余的特征。有可能一个特征的分类效果差,但是和其他特征的组合效果好,就会错过这样的特征。
- 包装法(Wrapper)
- 集成法(Embedded)