lasso特征选择python_【译文】特征选择方法导论(如何选取合适的变量)

本文介绍了特征选择在机器学习中的重要性,如提高模型训练速度、降低复杂度和增强准确性。文章详细讲解了过滤法、包装法和嵌入法三种特征选择方法,其中过滤法基于统计检验,包装法通过模型评估,嵌入法结合两者。通过案例展示了使用包装法降低特征数量如何提升模型预测精度。
摘要由CSDN通过智能技术生成

【译文】特征选择方法导论(如何选取合适的变量)

作者 SAURAV KAUSHIK

译者 钱亦欣

引言

我时常以参加竞赛的方式来磨练自己的机器学习技能,它能让你更清楚地了解自己的水平。一开始,我以为算法就是机器学习的一切,知道采用哪种模型就能走上人生巅峰。但后来我发觉自己拿衣服了,竞赛的赢家们使用的算法和其他人并无二致。而后,我认为这些人一定有很牛逼的机器,但当我发现有的top选手建模用的仅仅是macbook air后,我知道自己又错了。最终,我发现真正使得这些人脱颖而出是两件事:特征构建和特征选择。

换句话说,他们创造并选取了恰能反应数据背后逻辑的特征进入预测模型。不知算好算坏,这个技能需要持之以恒地实战, 还包含着很强的艺术性,一些人有着特别技巧,而大部分人在这方面只能苦苦挣扎。

本文我将着重介绍特征选择这一重要技巧。我会详细介绍为什么它在训练有效的预测模型中扮演着如此重要的角色。

搞起!

目录

特征选择的重要性

过滤法

包装法

嵌入法

过滤法与包装法的区别

案例

1. 特征选择的重要性

机器学习遵循一个简单法则,你输入的是垃圾,那么得到的输出也只能是垃圾,此处的垃圾指的就是数据中的噪声。

当特征的数量很大时,这个问题就更严重了。因此你没有必要使用所有的特征来建模,只需要放入那些真正重要的,本人亲测,很多时候用特征的子集反而能取得更好的效果(不换算法)。Rohan Rao也说“Sometimes, less is better!"。

这一法则在工业级应用中也同样奏效

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值