如何做特征筛选

特征工程是模型构建的核心环节,涉及特征编码、归一化和筛选。特征筛选常用方法包括:特征覆盖率(要求覆盖一定比例用户)、特征封箱测试(正负样本占比对比)、IV值、GAIN信息增益和卡方检验。通过这些方法综合评估,结合模型中的特征重要性,可以有效挑选出对模型影响大的特征。
摘要由CSDN通过智能技术生成

工作中做模型,首先很重要的一步就是特征工程,包括特征编码、特征归一、特征筛选等。

这里聊一下工作中常用的做特征筛选的方法。

  1. 特征覆盖率
  2. 特征封箱,即优势比
  3. IV值
  4. GAIN信息增益
  5. CHI卡方
  6. 基于模型的筛选

1、特征覆盖率

对于样本,有多少用户有此特征,缺失情况如何。一般要求特征覆盖率大于一定阈值。

2、特征封箱测试

即特征在正样本、负样本中的占比对比测试。选择特征:pct_1/pct_0<=0.8 || pct_1/pct_0=>1.2 

 3、根据IV值、GAIN、CHI排名做综合排名筛选

计算第2步筛选后的特征的IV值、GAIN值、chi值,并各自排序获得rank排名。

根据排名计算出综合排名,设置阈值,筛选出total_rank < 阈值的特征。

 4、基于模型的筛选

上述筛选后,基本可以获得不错的特征。当然也可以根据模型进一步获得选择的特征在模型上的表现衡量,即特征重要性。

特征特征重要性排名
会员0.441
性别0.122
学历0.103
年龄0.094

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值