结合Scikit-learn介绍几种常用的特征选择方法

文章链接:https://blog.csdn.net/Bryan__/article/details/51607215

特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。

特征选择主要有两个功能:

  1. 减少特征数量、降维,使模型泛化能力更强,减少过拟合
  2. 增强对特征和特征值之间的理解

拿到数据集,一个特征选择方法,往往很难同时完成这两个目的。通常情况下,我们经常不管三七二十一,选择一种自己最熟悉或者最方便的特征选择方法(往往目的是降维,而忽略了对特征和数据理解的目的)。

在许多机器学习相关的书里,很难找到关于特征选择的内容,因为特征选择要解决的问题往往被视为机器学习的一种副作用,一般不会单独拿出来讨论。

本文将结合Scikit-learn提供的例子介绍几种常用的特征选择方法,它们各自的优缺点和问题

1 去掉取值变化小的特征 Removing features with low variance

2 单变量特征选择 Univariate feature selection 

2.1 Pearson相关系数 Pearson Correlation 

2.2 互信息和最大信息系数 Mutual information and maximal information coefficient (MIC) 

2.3 距离相关系数 (Distance correlation) 

2.4 基于学习模型的特征排序 (Model based ranking) 

3 线性模型和正则化 

 3.1 正则化模型

3.2 L1正则化/Lasso  

3.3 L2正则化/Ridge regression 

4 随机森林 

随机森林提供了两种特征选择的方法:mean decrease impurity和mean decrease accuracy。 

5 两种顶层特征选择算法 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值