特征选择

特征选择的必要性

  1. 效率:大量冗余且不相关的特征会让模型的训练和预测变得异常缓慢;
  2. 效果:噪声特征降低模型的泛化能力;
  3. 特征间的强相关性会带来负面效果;
  4. 有利于数据的理解;
  5. 维灾难;

特征选择方法

  • sklearn.feature_selection包含部分特征选择的使用接口。

过滤式(filter)

  • 模型训练之前进行的预处理,与学习过程无关。
1.方差过滤法
  1. 移除方差不满足阈值的特征。
  2. 使用:sklearn.feature_selection.VarianceThreshold(threshold=0.9*(1-0.9)) #对于二值特征,移除某一取值比例大于0.9特征
  3. 常用方式:方差为0(取值唯一)、某取值(包括空值)占比超过90%或更高,则认为是可以剔除的特征。
2.单变量特征选择
  • 单个特征和目标Y的关系
2.1 Pearson相关系数
  1. 自变量与自变量两两之间,自变量与因变量之间。
  2. 使用:dataframe.corr(); scipy.stats.pearsonr
  3. 选取方式例举:x1与x2相关系数0.92,x1、x2与y相关系数分别为0.20、0.23ÿ
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值