ML—常见的特征选择方法

原创 2015年11月20日 11:18:21

华电北风吹
天津大学认知计算与应用重点实验室
日期:2015/11/20

在统计分析中,由于事先并不知道什么特征与这个模式相关,而特征对能否正确分类又起到至关重要的作用,因此特征选择是统计学习中必不可少的一步。目前常用的特征选择方案总的来说可以分为基于统计的和基于模型的。基于统计的比如F值,信息增益等,可以对各个特征直接进行选择,不需要建模看模型好坏。基于模型的需要根据模型准确率等因素来逐步选择或者删除特征。

一、F值(方差分析)
适用范围:特征取值连续,有监督,分类和回归
F值能够作为特征选择的思路是:对于单个特征来说假设这个特征与类别标签是无关的,因此这个特征在各个类别下均值应该是相同的。在统计学上可以根据样本个数和样本类别个数构建F统计量,由对应的p值来决定是否拒绝这个假设。
在使用F值做特征选择的时候有两种特征选择方案:一是设定显著性水平p值,将特征对应p值小于设定的阀值p的特征作为有效特征;另一种是设定需要选择的特征个数N,根据F值排序选择F值最大的N个特征作为有效特征。

二、信息增益和基尼系数
使用范围:特征取值离散,有监督,分类和回归
熵表示了数据分布的不均衡程度。熵作为特征选择的思路是:对于单个特征,如果特征的不同取值里面,类别标签的纯度比较高的话,如果根据经验预测以后的话,这样预测比较可靠。

三、相关系数
使用范围:有监督,分类和回归
根据各个特征与导师信号的相关系数确定要选择的特征。相关系数大的特征应该更有助于识别这个模式。还有一种就是对现有的特征进行建模,根据残差与导师信号的相关系数进行特征选择。

四、距离
使用范围:有监督,分类
根据特征下,不同类别之间的距离选择距离最大的一些特征。

五、Least absolute shrinkage and selection operator(lasso)
基于线性回归,在最小二乘的目标函数上添加L1正则项(绝对值)。也可以用于多模特征选择(多任务学习)。

六、特征选择步骤
在特征选择过程中有前向逐步添加特征的特征选择方案,也有后向逐步删除特征的特征选择方案,也有将两者进行结合的混合特征选择方案,这些方案都是基于模型的特征选择方案。

参考博客:
干货:结合Scikit-learn介绍几种常用的特征选择方法
特征选择常用算法综述

版权声明:本文为博主原创文章,未经博主允许不得转载。

ML—F值与特征选择

介绍一种特征选择方法

特征选择--scikit-learn

特征选择(Feature Selection):choosing a subset of all the features(the ones more informative)。最终得到的特征选是原来...

结合Scikit-learn介绍几种常用的特征选择方法

特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。 特征选择主要有两个功能: ...
  • Bryan__
  • Bryan__
  • 2016年06月07日 22:51
  • 19184

漫谈机器学习经典算法—特征提取与特征选择

模式识别 机器学习 特征提取和特征选择

机器学习之(四)特征工程以及特征选择的工程方法

关于特征工程(Feature Engineering),已经是很古老很常见的话题了,坊间常说:“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已”。由此可见,特征工程在机器学习中占有相...

特征选择的策略--数据相关性(皮尔逊系数)与gini或者信息熵的的结合

首先特征选择在实际的数据挖掘项目中非常重要,从海量维度的特征中选取出表征明显的特征显得非常的重要。特征选择主要可以从数据相关性角度和信息增益的角度来考虑。 数据相关性判断:皮尔逊系数 ...

特征选择与特征抽取

特征抽取和特征选择是DimensionalityReduction(降维)两种方法,但是这两个有相同点,也有不同点之处: 1. 概念: 特征抽取(Feature Extraction)...

特征选择

特征选择1.相关性通过使用相关性,我们很容易看到特征之间的线性关系。这种关系可以用一条直线拟合。下面通过皮尔逊相关系数(Pearson correlation coefficient)来解释特征的相关...

一些常见的特征选择方法

现实中产生的特征维度可能很多,特征质量参差不齐,不仅会增加训练过程的时间,也可能会降低模型质量。因此,提取出最具代表性的一部分特征来参与训练就很重要了。 通常有特征抽取和特征选择两种方法。这里分别介...

几种常用的特征选择方法

几种常用的特征选择方法
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:ML—常见的特征选择方法
举报原因:
原因补充:

(最多只允许输入30个字)