结合Scikit-learn介绍几种常用的特征选择方法

最新推荐文章于 2022-04-26 19:05:05 发布

Eric_zh69

最新推荐文章于 2022-04-26 19:05:05 发布

阅读量287

点赞数

分类专栏：机器学习、数据分析与挖掘

机器学习、数据分析与挖掘专栏收录该内容

13 篇文章 2 订阅

订阅专栏

文章链接：https://blog.csdn.net/Bryan__/article/details/51607215

特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能，更能帮助我们理解数据的特点、底层结构，这对进一步改善模型、算法都有着重要作用。

特征选择主要有两个功能：

减少特征数量、降维，使模型泛化能力更强，减少过拟合
增强对特征和特征值之间的理解

拿到数据集，一个特征选择方法，往往很难同时完成这两个目的。通常情况下，我们经常不管三七二十一，选择一种自己最熟悉或者最方便的特征选择方法（往往目的是降维，而忽略了对特征和数据理解的目的）。

在许多机器学习相关的书里，很难找到关于特征选择的内容，因为特征选择要解决的问题往往被视为机器学习的一种副作用，一般不会单独拿出来讨论。

本文将结合Scikit-learn提供的例子介绍几种常用的特征选择方法，它们各自的优缺点和问题

1 去掉取值变化小的特征 Removing features with low variance

2 单变量特征选择 Univariate feature selection

2.1 Pearson相关系数 Pearson Correlation

2.2 互信息和最大信息系数 Mutual information and maximal information coefficient (MIC)

2.3 距离相关系数 (Distance correlation)

2.4 基于学习模型的特征排序 (Model based ranking)

3 线性模型和正则化

3.1 正则化模型

3.2 L1正则化/Lasso

3.3 L2正则化/Ridge regression

4 随机森林

随机森林提供了两种特征选择的方法：mean decrease impurity和mean decrease accuracy。

5 两种顶层特征选择算法

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
结合Scikit-learn介绍几种常用的特征选择方法

文章链接：https://blog.csdn.net/Bryan__/article/details/51607215特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能，更能帮助我们理解数据的特点、底层结构，这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能：减少特征数量、降维，使模型泛化能力更强，减少过拟合增强对特征和特征值之间...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。