特征选择方法学习笔记

本文介绍了特征选择的重要性,包括过滤式、包裹式和嵌入式三种主流方法。过滤式通过特征排序独立于模型,但可能忽略特征间关系。包裹式考虑所有特征子集,计算量大。嵌入式在模型训练中选择特征,如决策树。特征构造如聚类和线性组合也是重要手段。
摘要由CSDN通过智能技术生成

    一直以来,笔者在实际工作中,对于特征变量的选取,往往是基于业务经验,根据一定的指标口径加工出一个个指标后,即投入到建模过程。而这些指标的好坏、计算口径是否恰当,较少有进行科学地分析与深入思考。与此同时,不少数据挖掘的教科书也对特征选择方法谈及甚少,笔者认为这不是个好现象,间接导致很多人看完了各种分类、聚类算法后,以为自己已经通晓数据挖掘了,但一遇到实际问题,又不知从何处下手了。今日打算学习一下该领域相关的理论及方法,记录下学习笔记,并分享之。


    特征选择之所以要引起重视的原因,那就是随着科技发展,很多领域能采集到的特征变量数以万计,而能作为训练集的样本量却往往远小于特征数量(如基因测序、文本分类)。特征选择的好处包括:便于理解和可视化数据,降低计算及存储压力,对抗维度灾难以提高模型预测准确率等等。特征选择的三类主流方法为:过滤式、包裹式、嵌入式。

  • 5
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值