ML - 贷款用户逾期情况分析5 - 特征工程2(特征选择)

特征选择 (判定贷款用户是否逾期)

给定金融数据,预测贷款用户是否会逾期。
(status是标签:0表示未逾期,1表示逾期。)

Task8(特征工程2 - 特征选择) - 分别用IV值和随机森林挑选特征,再构建模型,进行模型评估

1. IV值进行特征选择

1.1 基本介绍

在二分类问题中,IV值(Information Value)主要用来对输入变量进行编码和预测能力评估

IV 值的取值范围是[0, ∞ \infty ),其大小表示该变量预测能力的强弱。通常认为:

IV值 预测能力
<0.02 无用
0.02—0.1 弱预测
0.1—0.3 中等预测
0.3—0.5 强预测
>0.5 可疑

一般选择中等和强预测能力的变量用于模型开发,一些学派也只提倡具有中等IV值的变量来进行模型开发。

1.2 计算公式

1)WOE

WOE(weight of evidence,证据权重),是对原始变量的一种编码形式。

对一个变量进行WOE编码,首先要把变量进行分组处理(分箱或离散化)。常用离散化的方法有等宽分组,等高分组,或利用决策树来分组。
分组后,对于第 i 组,WOE的计算公式见下式:
W O E i = ln ⁡ p y 1 p y 0 = ln ⁡ # B i / # B T # G i / # G T WO{E_i} = \ln { { {p_{ {y_1}}}} \over { {p_{ {y_0}}}}} = \ln { {\# {B_i}/\# {B_T}} \over {\# {G_i}/\# {G_T}}} WOEi=lnpy0py1=ln#Gi/#GT#Bi/#BT

它衡量了"当前分组中响应用户/所有响应用户"和"当前分组中未响应用户/所有未响应用户"的差异。

2)IV值

IV值的计算以WOE为基础,相当于是WOE值的一个加权求和。

假设变量分了n个组。对第i组,计算公式如下:
I V i = ( # B i # B T − # G i # G T ) ln ⁡ # B i / # B T # G i / # G T I{V_i} = \left( { { {\# {B_i}} \over {\# {B_T}}} - { {\# {G_i}} \over {\# {G_T}}}} \right)\ln { {\# {B_i}/\# {B_T}} \over {\# {G_i}/\# {G_T}}} IVi=

  • 1
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值