一、特征选择的重要性
机器学习过程中,特征选择是非常重要的一步。可以说,选到了合适的特征,那么模型的训练就成功了一半。
一方面,遗漏掉重要特征肯定是我们无法接受的,这会导致我们的模型拟合能力不足;另一方面冗余特征也可能会造成严重的后果,比如:
- 带来额外的计算量,导致训练时间过长;
- 模型过拟合,对新样本泛化能力不足;
- 模型可读性(解释性)差。
所谓大浪淘沙始见金,在训练模型的过程中,我们不光要考虑模型、参数等的选择与调优,还要花足够的时间来选取合适的特征。
二、特征选择的方法
在现在的业界共识中,特征选择方法基本上可以归类为三种:过滤法、包裹法和嵌入法。
1. 过滤法
过滤法最好理解,就是通过一定的统计测量方法对每个特征进行评分和排序,然后按照一定的标准过滤出最优的特征子集。过滤法不用考虑后续的学习器,因此计算性能比较好。
2. 包裹法
包裹法的开销会大一些,效果一般也更好一些,因为这种方法是针对特定的模型量身定制的。使用包裹法时,要先确定准备采纳的学习器(模型),然后使用该学习器的性能指标作为特征子集的评价准则。也就是说,包裹法的目标就是为了给特定学习器