5个特征选择算法，让你的数据处理得心应手

最新推荐文章于 2024-09-25 21:30:00 发布

「已注销」

最新推荐文章于 2024-09-25 21:30:00 发布

阅读量2.8k

点赞数 2

分类专栏： AI 热点文章文章标签：人工智能算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/duxinshuxiaobian/article/details/100799922

版权

本文介绍了5种特征选择算法：皮尔逊相关系数、卡方分布、递归特征消除、套索正则化和基于树的特征选择，通过足球运动员数据集来演示如何找出关键特征。特征选择能避免过拟合、提高模型可解释性和减少计算资源。Scikit-learn库提供了实现这些方法的工具。

摘要由CSDN通过智能技术生成

全文共5462字，预计学习时长11分钟

图片来源：https://unsplash.com/@seefromthesky

数据科学是研究算法的学问。本文将会介绍一些处理数据时最常用的特征选择技术。

我们经常遇到这样的情况：在创建了大量特征后，又需要减少数量，最后再使用相关性或者基于树的方法来找出其中的重要特征。那么，如何让这些方法变得更有结构呢？

为何要进行特征选择？

在文章开始之前，先来回答这个问题：为什么不将所有的特征都交给机器学习算法，让它来决定哪些特征比较重要呢？

以下便是不能的三个原因：

1. 维数的诅咒——过拟合

维数的诅咒：随着特征空间维数的增加，配置数量将会以指数级增长，因此观测量会下降

如果数据中的列数多于行数，就能完美匹配训练数据，但这却并不适用于新样本。因此这样什么也没学到。

2. 奥卡姆剃刀原理

模型应当简单易懂。如果特征太多，就失去了可解释性。

3. 无用输入和输出

很多时候会出现像名称或ID变量等非信息特征。劣质输入也会产生劣质输出。

此外，大量特征会使模型量大、耗时，更难落实生产。

那应该怎么做？

答案是：只选择有用特征。

幸运的是，Scikit-learn能便捷简单地选择特征。特性选择有很多种方法，但是大多可以分为三类：

• 过滤：列入一些筛选特征的标准，如相关性/卡方分布。

• 包装：包装法将特征选择看作是搜索问题。如回归特征消除。

• 嵌入：嵌入法使用内置了特征选择方法的算法。比如，Lasso和RF都有各自的特征选择方法。

理论已经讲够了，接下来开始说五个特征选择的方法。

本文将使用数据集来方便理解——用一个足球运动员的数据集来找到成为优秀足球运动员的秘诀。

如果不理解足球术语也没关系，术语并不多。

Kaggle Kernel代码：https://www.kaggle.com/mlwhiz/feature-selection-using-footba

最低0.47元/天解锁文章

「已注销」

关注

2
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

「已注销」 CSDN认证博客专家 CSDN认证企业博客

码龄5年

2070: 原创

-: 周排名

-: 总排名

347万+: 访问

: 等级

4万+: 积分

4916: 粉丝

4457: 获赞

1312: 评论

1万+: 收藏

私信

关注

热门文章

分类专栏

热点文章 552篇
AI 1079篇
热点文章 559篇
干货文章 39篇
热门文章 1篇
学术报告 11篇
干货文章 69篇
学术报告

最新评论

快换浏览器吧！Google Chrome是最烂的浏览器
小没苯agoe: 赞同！！！edge比chrome快22%，firefox比chrome快16%!
提前返回有好处吗？
温庭筠: 我不使用提前返回, 因为接手别人的代码时确实比较难理解一旦代码达到了维护阶段，新手程序员试图推理逻辑时，多次返回就会大大影响他们的效率（当注释比较分散，代码模糊不清时尤其糟糕）
在Windows系统和Linux系统中，如何打造一个好终端？
全栈小5: 文章结构严谨，每次阅读都能收获知识，感谢博主的分享，期待博主继续更新高质量文章，支持！【如何让windows终端和linux一样好用，博主这篇文章，值得一看】
NLP入门第一步：6种独特的数据标记方式
麦甜守望者: 有中文怎么标注的吗？
海量案例！生成对抗网络（GAN）的18个绝妙应用
PreWisdom: 18 Impressive Applications of Generative Adversarial Networks (GANs) by Jason Brownlee on July 12, 2019 in Generative Adversarial Networks https://machinelearningmastery.com/impressive-applications-of-generative-adversarial-networks/ 你知道我要说什么吧，你这完全是把别人的文章简单翻译了一下搬过来了，然后你发原创，真行啊

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。