机器学习中,如果选取的特征太多,可能会严重降低训练和识别效率,一些无关紧要的特征还会干扰分类结果。因此在训练前,需要首先筛掉一些特征,只选取有用的那些。
常见方法有:
1.方差选择法
方差非常小的特征值一般对样本的区分作用很低,排除
2.皮尔森相关系数法
计算特征值与分类结果值之间的相关系数,相关系数很小的可排除
3.基于森林的特征选择法
某些分类器自带提供特征重要性分值的功能
4.递归特征消除法
基本步骤:在初始特征或权重特征集合上训练,通过学习器返回的coef属性或feature_importances_属性来获得每个特征的重要程度;将最小权重的特征移除;重复直到数量合适