问题6:常见的特征选择方法
三种:过滤法,包装法和嵌入法。
Filter:过滤法,按照发散性或者相关性对各个特征进行评分,设定阈值或者待选择阈值的个数,选择特征。
Pearson相关系数
卡方验证
互信息和最大信息系数
距离相关系数
方差选择法
Wrapper:包装法,根据目标函数(通常是预测效果评分),每次选择若干特征,或者排除若干特征。(缺点:训练次数多,复杂度高,但效果好)
前向搜索:逐渐增加特征
后向搜索:逐渐减少特征
递归特征消除法:使用基模型多轮训练,每轮训练后根据得到的权值系数或者特征重要性消除系数较低的特征,再基于新的特征集进行下一轮训练。
Embedded:嵌入法,先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据系数从大到小选择特征。类似于Filter方法,但是是通过训练来确定特征的优劣。通常会使用sklearn中的feature_selection库来进行特征选择。
基于惩罚项的特征选择法 通过L1正则项来选择特征:L1正则方法具有稀疏解的特性,因此天然具备特征选择的特性。
基于学习模型的特征排序:使用机器学习算法建立预测模型,得到打分,根据打分选择模型。