算法进阶day2特征选择

任务

分别用IV值和随机森林进行特征选择。然后分别构建模型(逻辑回归、SVM、决策树、随机森林、GBDT、XGBoost和LightGBM),进行模型评估。

IV值

1、 IV值:IV值(Information Value),即信息价值指标,是评分卡模型中的一个常见指标,在金融风控领域得到了广泛的应用,尤其是在特征选择的场景下,会经常提及这个概念。
2、当IV值取到多大时,我们才选择这个特征。这里给出一个经验参考表:

IV值 预测能力
< 0.02 无预测能力
0.02 ~ 0.1 较弱的预测能力
0.1 ~ 0.3 预测能力一般
0.3 ~0.5 较强的预测能力
> 0.5 可疑

IV值的计算

(1)、WOE
WOE是计算IV值的基础
WOE的计算公式:
在这里插入图片描述

p y i p_{y_i} pyi:表示第i属性违约样本占所有违约样本的比例
p x i p_{x_{i}} pxi:表示第i属性未违约样本占所有未违约样本的比例
y i y_{i} yi:表示第i属性违约样本总数
y y y: 表示总违约样本数
x i x_{i} xi:表示第i属性未违约样本总数
x x x:表示总未违约样本数

(2)、
IV值的计算式
在这里插入图片描述

代码实现

IV值的计算

# IV值的计算
def calcWOE(dataset, col, target):
    # 对特征进行统计分组
    subdata = df(dataset.groupby(col)[col].count())
    # 每个分组中响应客户的数量
    suby = df(dataset.groupby(col)[target].sum())
    # subdata 与 suby 的拼接
    data = 
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值