特征选择

本文探讨了特征选择的重要性,包括减少维数灾难和降低学习难度,并详细介绍了特征选择的三个方法:过滤式(如Relief)、包裹式(如LVW)和嵌入式(如L1正则化)。此外,还讨论了降维技术,特别是基于主成分分析(PCA)的特征提取,PCA通过线性变换将高维数据转化为低维线性无关的特征。
摘要由CSDN通过智能技术生成

目录

为什么要进行特征选择?

特征选择的两个环节

Part I: 常见的特征选择方法

1. 过滤式选择

2. 包裹式选择

3. 嵌入式选择

Part II: 降维

基于主成分分析的特征提取


为什么要进行特征选择?

一是因为现实任务中经常为遇到维数灾难问题;

二是因为去除不相关特征会降低学习任务的难度;

 

特征选择的两个环节

1) 子集搜索

2)子集评价:我们可以基于训练数据集D 来计算其信息增益, 以此作为评价准则;

Ent(D) = - \sum_{k=1}^{|Y|}p_k\log_2p_k

 

Part I: 常见的特征选择方法

大致可分为三类: 过滤式, 包裹式和嵌入式。

1. 过滤式选择

过滤式方法先对数据集进行特征选择, 然后再训练学习器,特征选择过程与后续学习器无关。 这相当于先用特征选择过程对初始特征进行过滤, 再用过滤后的特征来训练模型。

代表性方法:Relief

代表性方法是Relief。在Relief方法中, 特征子集的重要性则是由子集中每个特征所对应的相关统计量分量之和来决定。于是, 最终只需指定一个阈值\tau, 然后选择比\tau大的相关统计量分量所对应的特征即可;也可指定选取的特征个数k,然后选择相关统计量分量最大的k个特征。Relief方法根据“猜中近邻”和“猜错近邻”来计算相关统计量。

其中x_i在同类样本中寻找其中最近邻x_{i, nh}称为猜中近邻, 而从异类样本中寻找最近邻

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值