IV与PSI的理解--深入浅出

IV与PSI的理解–深入浅出

一、IV理解

IV衡量的是某一个变量的信息量,是基于WOE来计算的,也可以说是基于KL散度的计算。用于变量个数较多场景下的变量初筛。

Iv取值范围 含义
(0,0.02] 无预测力
(0.02,0.1] 较弱预测力
(0.1,+∞) 预测力可以

理论上,是保留IV值大于0.1的变量进行筛选。
工业上,一般IV超过0.05可以通过初筛,根据变量iv实际情况可以灵活设置阈值。

  1. WOE理解
    woe是一种分箱手段,我理解的最主要有四个作用:
    1)归一化:分箱且woe编码映射后的变量,可以将变量归一到近似尺度上;
    2)引入非线性:对于逻辑回归这类线性模型,引入变量分箱可以增强模型的拟合能力,实现了按WOE排序的区间正样本比例呈单调趋势;
    3)增强鲁棒性:分箱可以避免异常数据对模型的影响
    4)可解释性:使变量具有可解释性

  2. WOE计算
    WOE=ln(Pxi / Qxi)
    Pxi 表示正样本中某一箱的占比,Qxi表示负样本中某一箱的占比。

  3. KL散度计算

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值