什么特征选择
- 特征选择 ( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ) ,或属性选择( Attribute Selection ) ,是指从全部特征中选取一个特征子集,使构造出来的模型更好。
为什么要做特征选择
-
在机器学习的实际应用中,特征数量往往较多,其中可能存在不相关的特征,特征之间也可能存在相互依赖,容易导致如下的后果:
-
特征个数越多,分析特征、训练模型所需的时间就越长。
-
特征个数越多,容易引起“维度灾难”,模型也会越复杂,其推广能力会下降。
-
-
特征选择能剔除不相关(irrelevant)或亢余(redundant )的特征,从而达到减少特征个数,提高模型精确度,减少运行时间的目的。另一方面,选取出真正相关的特征简化了模型,使研究人员易于理解数据产生的过程。
特征选择基本原则
数据预处理完成之后,我们需要选择有意义的特征,输入机器学习的算法和模型进行训练,通常来说,从两个方面考虑来选择特征
-
如何选择特征
-
是否发散
-
是否相关
-
如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本没