6、特征选择(filter):WOE迹象权数与IV值检验

  WOE(Weight of Evidence)迹象权数,表示当前分箱中好坏客户的各自占总体好坏客户比例的差异,描述了预测变量与目标变量之间的关系。

  IV(information value)信息值,又称VOI(Value Of Information),用来表示变量预测能力的强度,可用于单变量筛选。

  其数学表达为:

I V = ∑ i = 1 N I V i = ∑ i = 1 N ( P g o o d ( i ) − P B a d ( i ) ) ∗ W O E i = ∑ i = 1 N ( P g o o d ( i ) − P B a d ( i ) ) ∗ l n P G o o d ( i ) P B a d ( i ) \begin{aligned} IV&= \sum^{N}_{i=1}IV_i \\ &=\sum^{N}_{i=1}(P_{good}^{(i)}-P_{Bad}^{(i)})*WOE_i \\ &=\sum^{N}_{i=1}(P_{good}^{(i)}-P_{Bad}^{(i)})*ln\frac{P_{Good}^{(i)}}{P_{Bad}^{(i)}}\\ \end{aligned} IV=i=1NIVi=i=1N(Pgood(i)PBad(i))WOEi=i=1N(Pgood(i)PBad(i))lnPBad(i)PGood(i)

  其中 P G o o d ( i ) = 特征取值为 i 的 G o o d 样本 / 总体 G o o d 样本 P_{Good}^{(i)}=特征取值为i的Good样本/总体Good样本 PGood(i)=特征取值为iGood样本/总体Good样本

  其中 P B a d ( i ) = 特征取值为 i 的 B a d 样本 / 总体 B a d 样本 P_{Bad}^{(i)}=特征取值为i的Bad样本/总体Bad样本 PBad(i)=特征取值为iBad样本/总体Bad样本

  一般来说,IV值越大表示特征越有效,并且一般认为IV值和特征效果有如下对应关系:

IV值 解释能力
<0.03 无预测力
[0.03, 0.09) 具有较弱判别效果
[0.1, 0.29) 具有一定的判别效果
[0.3, 0.49) 具有较好的判别效果
>=0.5 具有极强的判别效果

  举例说明:假设为二分类问题,数据分布如下,现衡量特征变量"是否为老人"对“是否流失”的影响程度。

在这里插入图片描述
  则:

I V = ∑ i = 1 2 I V i = ∑ i = 1 2 ( P g o o d ( i ) − P B a d ( i ) ) ∗ l n P G o o d ( i ) P B a d ( i ) = ( 5700 6000 − 400 1000 ) ∗ l n ( 5700 / 6000 400 / 1000 ) + ( 300 6000 − 600 1000 ) ∗ l n ( 300 / 6000 600 / 1000 ) = 1.84 \begin{aligned} IV&= \sum^{2}_{i=1}IV_i \\ &=\sum^{2}_{i=1}(P_{good}^{(i)}-P_{Bad}^{(i)})*ln\frac{P_{Good}^{(i)}}{P_{Bad}^{(i)}}\\ &=(\frac{5700}{6000}-\frac{400}{1000})*ln(\frac{5700/6000}{400/1000})\\ &+(\frac{300}{6000}-\frac{600}{1000})*ln(\frac{300/6000}{600/1000})\\ & = 1.84 \end{aligned} IV=i=12IVi=i=12(Pgood(i)PBad(i))lnPBad(i)PGood(i)=(600057001000400)ln(400/10005700/6000)+(60003001000600)ln(600/1000300/6000)=1.84

WOE优势

  • 能够作为特征重要性评估手段,可提升模型的预测效果;
  • WOE可以将非线性变量线性化处理(不一定单调),提高业务解释性;
  • WOE能消除异常值的影响(通过分箱离散化处理),提高变量的抗干扰能力;
  • 处理缺失值(将缺失值单独作为一个分箱),提高模型的效果;
  • 经常用于对连续字段分箱中,尤其常见于评分卡模型。
  • WOE编码(得先对连续变量先分箱)与one-hot编码相比,可以保证变量的完整性,同时避免稀疏矩阵和维度灾难并加快收敛;

WOE劣势

  • 小概率事件导致woe对比较不同变量预测能力失效

WOE可以将非线性变量线性化处理

  逻辑回归的假设函数为:
p = 1 1 + e − θ T x p=\frac{1}{1+e^{-\theta^Tx}} p=1+eθTx1
  对于二分类问题,p为样本为坏客户的概率,1-p为样本为好客户的概率,可得:
l o g ( p 1 − p ) = 1 1 + e − θ T x 1 − 1 1 + e − θ T x = 1 1 + e − θ T x 1 + e − θ T x 1 + e − θ T x − 1 1 + e − θ T x

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值