文章目录
特征选择 (判定贷款用户是否逾期)
给定金融数据,预测贷款用户是否会逾期。
(status是标签:0表示未逾期,1表示逾期。)
Task8(特征工程2 - 特征选择) - 分别用IV值和随机森林挑选特征,再构建模型,进行模型评估
1. IV值进行特征选择
1.1 基本介绍
在二分类问题中,IV值(Information Value)主要用来对输入变量进行编码和预测能力评估。
IV 值的取值范围是[0, ∞ \infty ∞),其大小表示该变量预测能力的强弱。通常认为:
IV值 | 预测能力 |
---|---|
<0.02 | 无用 |
0.02—0.1 | 弱预测 |
0.1—0.3 | 中等预测 |
0.3—0.5 | 强预测 |
>0.5 | 可疑 |
一般选择中等和强预测能力的变量用于模型开发,一些学派也只提倡具有中等IV值的变量来进行模型开发。
1.2 计算公式
1)WOE
WOE(weight of evidence,证据权重),是对原始变量的一种编码形式。
对一个变量进行WOE编码,首先要把变量进行分组处理(分箱或离散化)。常用离散化的方法有等宽分组,等高分组,或利用决策树来分组。
分组后,对于第 i 组,WOE的计算公式见下式:
W O E i = ln p y 1 p y 0 = ln # B i / # B T # G i / # G T WO{E_i} = \ln {
{
{p_{
{y_1}}}} \over {
{p_{
{y_0}}}}} = \ln {
{\# {B_i}/\# {B_T}} \over {\# {G_i}/\# {G_T}}} WOEi=lnpy0py1=ln#Gi/#GT#Bi/#BT
它衡量了"当前分组中响应用户/所有响应用户"和"当前分组中未响应用户/所有未响应用户"的差异。
2)IV值
IV值的计算以WOE为基础,相当于是WOE值的一个加权求和。
假设变量分了n个组。对第i组,计算公式如下:
I V i = ( # B i # B T − # G i # G T ) ln # B i / # B T # G i / # G T I{V_i} = \left( {
{
{\# {B_i}} \over {\# {B_T}}} - {
{\# {G_i}} \over {\# {G_T}}}} \right)\ln {
{\# {B_i}/\# {B_T}} \over {\# {G_i}/\# {G_T}}} IVi=