特征选择

该文为博主翻译关于特征选择的相关博文。
An Introduction to Feature Selection

特征选择介绍

你应该使用哪些功能来创建一个预测模型呢?
这是一个比较困难的问题,可能需要深入了解问题领域。
可以自动选择数据中与您正在处理的问题最有用或者最相关的那些特征。这个过程称为特征选择。
在这篇文章中,你将会发现特征选择,使用的方法的类型以及接下来看到的一个便捷的清单,将会在选择机器学习模型的功能时用到。

什么是特征选择?

特征选择也叫做变量选择或者属性选择。
它是自动选择与您正在处理的预测建模问题最相关的数据中的属性的属性。

特征选择—是用于模型构建问题中选择相关特征子集的过程 (维基百科)

特征选择不同于降维。但是这两种方法都试图减少数据集中属性的数量,但降维方法通过创建属性的新组合来实现,其中特征选择方法包括和排除数据中存在的属性但是不改变他们。
降维方法中主要有:PCA主成分分析法等。

特征选择本身也是有用的,它主要是作为过滤器,将除了现有特征之外无用的特征消除。—Robert Neuhaus在回答“ 你认为机器学习中的特征选择有多宝贵?

特征选择算法:
Filter:过滤法,按照发散性或者相关性对各个特征进行评分,设定阈值或者待选择阈值的个数,选择特征。这些功能按照评分排序,并选择保留或从数据集中删除,这些方法通常是单变量的,并且独立地考虑这个特征或者考虑因变量。
Wrapper:包装法,根据目标函数(通常是预测效果评分),每次选择若干特征,或者排除若干特征。包装法考虑选择一组特征作为搜索问题,其中不同的组合被准备,评估并与其他组合进行比较。搜索过程可能是有条不紊的,比如最佳搜索也可能使用启发式算法例如使用前向或者后向遍历来添加或者删除特征。包装法是递归特征消除算法的一个例子。
Embedded:嵌入法,先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据系数从大到小选择特征。类似于Filter方法,但是是通过训练来确定特征的优劣。最常见的嵌入式特征选择方法就是正则化方法,也称为惩罚方法,它将额外的约束引入预测算法的优化中,从而将模型偏向低复杂度。正则化算法的例子是LASSO,Elastic Net和Ridge回归。

特征选择教程

我们已经看到有许多已经写好的特征选择的算例。
Weka
Scikit-Learn
R

特征选择清单:

1.你有领域知识吗?如果是,则构建一组更好的特定“”功能
2.你的功能是否相称?如果不是,请考虑使它们正则化。
3.你怀疑功能的相互依赖吗?如果是,则可以通过构建功能的连接功能或产品来扩展功能集,尽可能为您的计算机资源提供支持。
4.您是否需要修剪输入变量(例如,出于成本,速度或数据理解的原因)?如果否,则构造分离特征或特征的加权和
5.您是否需要单独评估功能(例如了解它们对系统的影响,或者因为它们的数量太大以致需要进行第一次过滤)?如果是,则使用可变排名方法; 否则,无论如何,要获得基准结果。
6.你需要预测吗?如果否,停止
7.你怀疑你的数据是“脏的”(有几个无意义的输入模式和/或嘈杂的输出或错误的类标签)?如果是,则使用在步骤5中获得的排名最高的变量作为表示来检测离群值示例; 检查和/或丢弃它们。
8.你知道先试一下吗?如果不是,请使用线性预测器。使用“探测”方法作为停止标准的正向选择方法,或者在步骤5的排序后使用0范数嵌入方法进行比较,使用增加的特征子集构建相同性质的预测变量序列。你可以通过更小的子集来匹配或提高性能吗?如果是,请尝试使用该子集的非线性预测器。
9.你有新的想法,时间,计算资源和足够的例子吗?如果是,请比较几种特征选择方法,包括您的新想法,相关系数,后向选择和嵌入方法。使用线性和非线性预测变量。选择模型选择最佳方法
10.你想要一个稳定的解决方案(以提高性能和/或理解)?如果是,则对您的数据进行二次抽样并重做您的分析以获得几个“引导程序”。
通过上述翻译希望可以对大家提高帮助。更感谢原作者的科研文章贡献。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值