特征选择是非常关键的步骤,选入大量的特征不仅会降低模型的效果,也会耗费大量的计算时间。而漏选的特征也会直接影响到最终的模型效果。
选择方法为:
1.方差选择法:假如某列特征数值变化一直平缓,说明这个特征对结果的影响很小,所以可以计算各个特征的方差,选择方差大于自设阈值的特征。
2.相关系数,统计检验:相关系数和统计检验都可以用来特征选择,常用的有person相关系数和卡方检验,前者主要用于连续变量,后者用于离散变量。
3.互信息法:互信息法也经常被用于来评价自变量对因变量的相关性,互信息的计算公式为: