特征选择:最合适的往往就在身边

● 每周一言

当你命运遭受打击的时候,千万要抗住,有可能下一把就是王牌。

导语

特征工程,是机器学习中必不可少的重要一环。在诸如kagglers、kddcup以及国内的天池大数据竞赛等比赛中,top的优胜队伍通常并不是使用了什么高深的算法,而是在特征工程环节做好了充分的准备,仅使用常见的模型便取得了较为出色的效果。

由此可见,特征工程在实际的实验研究以及项目落地过程中,占据着举足轻重的地位。而在特征工程里,特征选择又是举足轻重的一个环节,直接影响到了特征工程的最终质量。那么特征选择是什么?又有哪些常见的方法?

特征选择

机器学习领域,特征就是和样本有关的所有信息。从信息论角度来说,所有的这些信息特征,都包含了信息量,也就是说都是有价值的。

fig1

既然特征都有价值,为什么还需要选择?那是因为,模型的预测目标不一样,与之相关的特征就不一样。比如预测一个人是否是亚洲人,“肤色”这个特征或许最为相关;而如果要预测一个人是否月入十万,“肤色”特征基本就不相关了。

因此,预测目标的不同,决定了不同特征的重要性。与预测目标相关性较低的特征,不仅对预测准确率没有帮助,还会带来不必要的计算开销。

fig2

了解了特征选择的原因,接下来我们介绍特征选择的几种实现方式。常见的方法可以分为三类:过滤法(filter)包裹法(wrapper)嵌入法(embedding)

过滤法 应该是最简单直白的特征选择方法了。过滤法根据某种度量规则,从众多特征中挑选出对结果预测最有用的特征。这里的度量规则可以是各种距离度量(机器学习方法篇(18)——聚类),比如 卡方检验欧拉距离Pearson相关系数;也可以是信息熵(如何直观理解交叉熵及其优势?),比如 信息增益信息增益率机器学习方法篇(3)——决策树入门)。

过滤法的缺点是,只评估了单个特征对结果的影响,并没有考虑特征之间的相关性。

fig3

包裹法 把特征选择看做是一个针对特征子集的搜索问题,依赖具体的模型效果来评估好坏。一般采用线性模型评估效果,先用全量特征训练,陆续批量删掉权重较低的特征,观察指标,直到指标出现重大下滑停止。所用的方法叫 递归特征消除算法

嵌入法 和包裹法的形式一样,也是根据模型来分析特征的重要性。嵌入法最常见的实现方式是用L1正则化来做特征选择。正则项:把控拟合方向的马车夫 这篇文章讲到L1范数有个美称叫“稀疏规则算子”,用其正则化输出筛选出的非零特征,便是对预测目标做出了贡献的特征。

fig4

除开上述三类方法,我们还可以给特征加一个预处理,就是用规则的方式先去掉值域变化较小的特征,这是一种最简单的特征选择方法。从直观上看,波动不大的特征值对预测目标的影响也不会大,比如特征值全部为某一个常数,可以直接剔除。

以上便是特征选择的讲解,敬请期待下节内容。

结语

感谢各位的耐心阅读,后续文章于每周日奉上,敬请期待。欢迎大家关注小斗公众号 对半独白

face

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值