特征选择概述

维基百科定义:

在机器学习和统计学中,特征选择(英语:feature selection)也被称为变量选择、属性选择或变量子集选择。 它是指:为了构建模型而选择相关特征(即属性、指标)子集的过程。

特征选择的目标是寻找最优特征子集。特征选择能剔除不相关(irrelevant)或冗余(redundant )的特征,从而达到减少特征个数,提高模型精确度,减少运行时间的目的。另一方面,选取出真正相关的特征简化模型,协助理解数据产生的过程。

特征选择方法通常分为一下三类:

  • 过滤法(Filter)

    过滤式方法对数据集进行特征选择,然后再训练学习器。特征选择过程与后续学习器无关。这相当于先用特征选择过程对特征进行了过滤,然后再用过滤后的特征来训练模型。此过程中不会借用分类模型来完成。
    方法:设计一个“相关统计量”来度量特征的重要性。设统计量是一个特征向量,每个分量对应一个特征。特征子集的重要性是所选择的特征重要性之和。
    
    优点:可以较容易的从低维数据扩展到高维数据。计算效率高。
    缺点:由于特征和特征的评价是一个一个的进行评价,所以不考虑特征之间的交互作用,倾向于选择冗余的特征。有可能一个特征的分类效果差,但是和其他特征的组合效果好,就会错过这样的特征。
    
  • 包装法(Wrapper)
  • 集成法(Embedded)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值