遗传算法特征选择_透彻理解特征选择方法论

特征选择对于提高模型性能至关重要,它能减少噪音、降低成本并简化模型理解。本文介绍了过滤法、包裹法和嵌入法三种方法。过滤法基于特征与目标的相关性做筛选,如信息熵、信息增益、KL松散度等;包裹法则通过特征搜索和模型性能评估选择最佳子集,如遗传算法;嵌入法在学习过程中选择特征,如岭回归和决策树。遗传算法在包裹法中用于高效搜索特征子集,通过迭代优化找到最优特征组合。
摘要由CSDN通过智能技术生成

特征选择是根据特定标准选择特征最佳子集的过程。

为什么我们需要特征选择(feature selection)?

特征选择最直观的原因是避免维度灾难,维度太多对算法运算速度、可解释性等方面都带来很多影响;其次就是特征少便于进行可视化,进而利于模型选择;最后,维度太多必然带来很多噪音,这对我们建立模型是非常不利的。

概括如下:

  • 提高性能(在速度,预测能力,模型的简单性方面)
  • 可视化模型选择的数据
  • 减少维数并消除噪音

特征选择带来的好处:

  1. 删除不相关的数据。
  2. 提高学习模型的预测准确性。
  3. 降低数据成本。
  4. 提高学习效率,例如降低存储要求和计算成本。
  5. 降低了最终模型描述的复杂性,提高了对数据和模型的理解。

特征选择的三大方法

  • 过滤法:选择变量子集,并不考虑随后使用它们的模型。
  • 包裹法:选择变量子集,并兼顾考虑使用它们的模型。
  • 嵌入法:特征选择方法建立、植入在机器学习模型(或更确切地说是其训练算法)本身(例如决策树)中。

过滤法(Filter)

过滤法检验特征向量和目标(响应变量)的相关度,不依赖于任何模型,应用各种指标做筛选,包括依据统计量的措施、相关性度量、一致性度量、准确性度量。

所以,从某种程度上来说,过滤法更像是一个单独的数学问题不考虑与模型间的关系,我们只在过滤之后的特征子集上进行建模和训练。

属于过滤法的特征选择方法很多,只要是能确定特征相对于目标变量、预测结果的重要性高,就会被选中,下面举一些典型的过滤方法。

信息熵

信息熵用于度量在接收消息时测量接收器的不确定性。

香农的熵:

2bd95cf0f7b57e0020eca287c08c90b0.png

信息增益

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值