分词之后的如何做特征选择_前向、后向、双向特征选择

前向、后向和双向特征选择,属于包裹式特征选择,理论上来说,对于所有的算法都可以使用这样的思想。


1、前向特征选择:

首先从所有特征中选择特征的重要性最大的特征入模型,这里如何衡量特征的重要性有很多很多的方法,比如tree的feature_importance,比如各种过滤式特征选择的特征衡量指标:gini、卡方值等等,比如模型的评价指标:auc、ks等等也可以用于定义特征的重要性程度。不过在线性模型中比较常见的衡量标准还是aic和bic。

不过线性模型中还有一个麻烦的地方在于,每次选入的特征还要进行F检验和T检验等,其实不用这么麻烦的。。。数据量大的时候一般不怎么做假设检验。。。


补充说明:

AIC和BIC准则​www.jianshu.com
834c1db02e56822177df2b8de4a2d9fe.png

很多参数估计问题均采用似然函数作为目标函数,当训练数据足够多时,可以不断提高模型精度,但是以提高模型复杂度为代价的,同时带来一个机器学习中非常普遍的问题——过拟合。
所以,模型选择问题模型复杂度模型对数据集描述能力(即似然函数)之间寻求最佳平衡。
人们提出许多信息准则,通过加入模型复杂度的惩罚项来避免过拟合问题,此处我们介绍一下常用的两个模型选择方法:
1赤池信息准则(Akaike Informatio

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值