特征选择常用算法

本文详细介绍了在数据预处理阶段特征选择的一些常用算法,包括过滤式、包裹式和嵌入式方法,旨在帮助读者理解如何从大量特征中挑选出对模型预测最有价值的特征,提升模型性能。
摘要由CSDN通过智能技术生成

转载自:https://www.cnblogs.com/heaad/archive/2011/01/02/1924088.html

1 综述

 

(1) 什么是特征选择

特征选择 ( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ) ,或属性选择( Attribute Selection ) ,是指从全部特征中选取一个特征子集,使构造出来的模型更好。

 

(2) 为什么要做特征选择

       在机器学习的实际应用中,特征数量往往较多,其中可能存在不相关的特征,特征之间也可能存在相互依赖,容易导致如下的后果:

    • 特征个数越多,分析特征、训练模型所需的时间就越长。
    • 特征个数越多,容易引起“维度灾难”模型也会越复杂,其推广能力下降。

 

特征选择能剔除不相关(irrelevant)或亢余(redundant )的特征,从而达到减少特征个数,提高模型精确度,减少运行时间的目的。另一方面,选取出真正相关的特征简化了模型,使研究人员易于理解数据产生的过程。

 

 2 特征选择过程

 

2.1 特征选择的一般过程

 

       特征选择的一般过程可用图1表示。首先从特征全集中产生出一个特征子集,然后用评价函数对该特征子集进行评价,评价的结果与停止准则进行比较,若评价结果比停止准则好就停止,否则就继续产生下一组特征子集,继续进行特征选择。选出来的特征子集一般还要验证其有效性。

       综上所述,特征选择过程一般包括产生过程,评价函数,停止准则,验证过程,这4个部分。

 

  (1) 产生过程( Generation Procedure )

         产生过程是搜索特征子集的过程,负责为评价函数提供特征子集。搜索特征子集的过程有多种,将在2.2小节展开介绍。

 

  (2) 评价函数( Evaluation Function )     

         评价函数是评价一个特征子集好坏程度的一个准则。评价函数将在2.3小节展开介绍。

 

  (3) 停止准则( Stopping Criterion )

         停止准则是与评价函数相关的,一般是一个阈值,当评价函数值达到这个阈值后就可停止搜索。

 

  (4) 验证过程( Validation Procedure )

         在验证数据集上验证选出来的特征子集的有效性。

图1. 特征选择的过程 ( M. Dash and H. Liu 1997 )

 

2.2 产生过程

      

产生过程是搜索特征子空间的过程。搜索的算法分为完全搜索(Complete),启发式搜索(Heuristic),随机搜索(Random) 3大类,如图2所示。

 

 

 

图2.

  • 1
    点赞
  • 36
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
特征选择是机器学习中的一个重要步骤,它用于从给定的特征集合中选择最相关的特征,以提高模型的性能和效果。Python提供了多种特征选择优化算法,以下是其中几种常用算法: 1. 递归特征消除(Recursive Feature Elimination,RFE):RFE是一种基于模型的特征选择方法,它通过反复训练模型并剔除最不重要的特征来进行特征选择。在每一轮迭代中,RFE会剔除当前模型中最不重要的特征,直到达到指定的特征数量或达到指定的性能指标。 2. 方差阈值(Variance Threshold):方差阈值是一种基于特征方差的特征选择方法。它通过计算特征的方差,并将方差低于指定阈值的特征剔除。方差阈值方法适用于处理方差较低的特征,因为这些特征往往对模型的预测能力贡献较小。 3. 互信息(Mutual Information):互信息是一种基于信息论的特征选择方法,它衡量了特征与目标变量之间的相关性。互信息方法可以用于选择与目标变量高度相关的特征,从而提高模型的预测性能。 4. L1正则化(L1 Regularization):L1正则化是一种基于稀疏性的特征选择方法,它通过在模型的损失函数中引入L1范数惩罚项,促使模型选择少量重要的特征。L1正则化方法适用于处理高维数据集,可以帮助减少特征维度并提高模型的泛化能力。 5. 遗传算法(Genetic Algorithm):遗传算法是一种基于进化思想的优化算法,它通过模拟自然选择、交叉和变异等过程来搜索最优解。在特征选择中,遗传算法可以用于搜索最佳特征子集的组合,以最大化模型的性能。 这些算法可以根据具体的问题和数据集选择合适的方法进行特征选择优化。你可以根据自己的需求和数据特点选择适合的算法来进行特征选择
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值