机器学习特征选择方法

特征决定上限,模型逼近上限

特征选择对后面的模型训练很重要,选择合适重要的特征,对问题求解尤为重要,下面介绍一些常见的特征选择方法。

通常来说,从两个方面考虑来选择特征

特征是否发散:如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。
特征与目标的相关性:这点比较显见,与目标相关性高的特征,应当优选选择。

相关系数法 使用相关系数法,先要计算各个特征对目标值的相关系

常用的有皮尔逊相关系数,斯皮尔曼秩系数,可见本博客中的相关分析http://blog.csdn.net/u014755493/article/details/69744860

构建单个特征的模型,通过模型的准确性为特征排序,借此来选择特征

通过L1正则项来选择特征:L1正则方法具有稀疏解的特性,天然具备特征选择的特性 

分别使用L1和L2拟合,如果两个特征在L2中系数相接近,在L1中一个系数为0一个不为0,那么其实这两个特征都应该保留,原因是L1对于强相关特征只会保留一个

训练能够对特征打分的预选模型:RandomForest和LogisticRegression/GBDT等都能对模型的特征打分,通过打分获得相关性后再训练最终模型

通过特征组合后再来选择特征:如对用户id和用户特征最组合来获得较大的特征集再来选择特征,这种做法在推荐系统和广告系统中比较常见

深度学习

传统用前进或者后退法的逐步回归来筛选特征或者对特征重要性排序,对于特征数量不多的情况还是适用的。

方差选择法,计算各个特征的方差,然后根据阈值,选择方差大于阈值的特征


卡方检验,经典的卡方检验是检验定性自变量对定性因变量的相关性
详见本博客卡方检验及其应用http://blog.csdn.net/u014755493/article/details/69791657

互信息法(信息增益),互信息法经典的互信息也是评价定性自变量对定性因变量的相关性的
互信息指的是两个随机变量之间的关联程度即给定一个随机变量后,另一个随机变量不确定性的削弱程度,因而互信息取值最小为0,意味着给定一个随机变量对确定一另一个随机变量没有关系,最大取值为随机变量的熵,意味着给定一个随机变量,能完全消除另一个随机变量的不确定性。
互信息是用来评价一个事件的出现对于另一个事件的出现所贡献的信息量,具体的计算公式为:

        

其中U、C代表两个事件,e的取值可以为0或者1,1代表出现这个事件,0代表不出现。

原文:https://blog.csdn.net/u014755493/article/details/70255493 
 

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值