特征工程

特征衍生

特征衍生是现有的特征进行某种组合,生成新的具有含义的特征。一般情况下,对于给的数据中,缺少必要的条件,我们需要将已知的特征进行组合,然后得到新的特征,这样能够让我们对数据的认识更加清晰。

比较好的例子

查看怎么样才能使用到我们的任务中

特征选择

对于总体的特征选择来说,主要可以划分为三种选择方法

  1. 过滤法:按照发散性或者相关性对各个特征进行评分,设定阈值,选择特征。
    常见的过滤方式包括方差分析、相关系数、假设检验、互信息等

    ​2. 包装法:根据目标函数(通常是预测效果评分),每次选择若干特征,或者排除若干特征。

    ​3. 嵌入法:先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据系数从大到小选择特征。
    ​1.IV值进行特征选择

    ​1.1 基本介绍

    ​在二分类问题中,IV值(Information Value)主要用来对输入变量进行编码和预测能力评估。

    ​IV 值的取值范围是[0, ​),其大小表示该变量预测能力的强弱。通常认为:

    ​IV值 预测能力
    ​<0.02 无用特征
    ​0.02-0.1 弱预测
    ​0.1-0.3 中等预测
    ​0.3-0.5 强预测
    ​0.5 可疑特征
    ​一般选择中等和强预测能力的变量用于模型开发。

    ​1.2 计算公式

    ​1)WO
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值