特征选择

特征选择和降维,它们是处理高维数据的两大主流技术。

  1. 维数灾难问题大为减轻
  2. 往往会降低学习任务的难度

在特征选择中,涉及两个关键环节:1)如何获取特征子集 2)如何评价特征子集的好坏

我们不可能遍历所有的特征子集,因此使用的是基于贪心的策略。搜索子集有三种方法:前向搜索,后向搜索,双向搜索。在子集评价问题中,可以使用信息增益作为评价准则。

将特征子集搜索机制与子集评价机制相结合,即可得到特征选择方法。

常见的特征选择方法有三类:过滤式、包裹式和嵌入式。

过滤式特征选择

先进行特征选择,然后用过滤后的特征来训练模型。这两个阶段是分离开的。

Relief是一种著名的过滤式特征选择方法。
该方法设计了一个“相关统计量”来度量特征的重要性。该统计量是一个向量,每一个分量分别对应一个初始特征,特征子集的重要性由子集中每个特征对应的相关统计量分量之和来决定。于是,可以指定一个阈值,然后选择比阈值大的相关统计量分量所对应的特征即可;或者,指定欲选取的特征个数 k k k,然后选择相关统计量分量最大的 k k k个特征。

Relief的关键是如何确定相关统计量。对于每一个示例 x i x_i xi,寻找其猜中近邻 x i , n h x_{i,nh} xi,nh(从同类样本中寻

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值