【译文】特征选择方法导论(如何选取合适的变量)
作者 SAURAV KAUSHIK
译者 钱亦欣
引言
我时常以参加竞赛的方式来磨练自己的机器学习技能,它能让你更清楚地了解自己的水平。一开始,我以为算法就是机器学习的一切,知道采用哪种模型就能走上人生巅峰。但后来我发觉自己拿衣服了,竞赛的赢家们使用的算法和其他人并无二致。而后,我认为这些人一定有很牛逼的机器,但当我发现有的top选手建模用的仅仅是macbook air后,我知道自己又错了。最终,我发现真正使得这些人脱颖而出是两件事:特征构建和特征选择。
换句话说,他们创造并选取了恰能反应数据背后逻辑的特征进入预测模型。不知算好算坏,这个技能需要持之以恒地实战, 还包含着很强的艺术性,一些人有着特别技巧,而大部分人在这方面只能苦苦挣扎。
本文我将着重介绍特征选择这一重要技巧。我会详细介绍为什么它在训练有效的预测模型中扮演着如此重要的角色。
搞起!
目录
特征选择的重要性
过滤法
包装法
嵌入法
过滤法与包装法的区别
案例
1. 特征选择的重要性
机器学习遵循一个简单法则,你输入的是垃圾,那么得到的输出也只能是垃圾,此处的垃圾指的就是数据中的噪声。
当特征的数量很大时,这个问题就更严重了。因此你没有必要使用所有的特征来建模,只需要放入那些真正重要的,本人亲测,很多时候用特征的子集反而能取得更好的效果(不换算法)。Rohan Rao也说“Sometimes, less is better!"。
这一法则在工业级应用中也同样奏效