机器学习-信息价值IV概念和例题

信息价值(IV,Information Value)是评估特征对目标变量的预测能力的一种指标。它用于衡量一个特征在分箱后对目标变量的区分能力。IV 值越高,表示特征对目标变量的预测能力越强,也就是说,该特征越有助于区分不同类别或者预测目标。

IV 值的计算公式如下:

𝐼𝑉=∑𝑖=1𝑁(𝑃𝑖(𝑔𝑜𝑜𝑑)−𝑃𝑖(𝑏𝑎𝑑))⋅ln⁡(𝑃𝑖(𝑔𝑜𝑜𝑑)𝑃𝑖(𝑏𝑎𝑑))IV=∑i=1N​(Pi​(good)−Pi​(bad))⋅ln(Pi​(bad)Pi​(good)​)

其中,

  • 𝑁N 是分箱的个数,
  • 𝑃𝑖(𝑔𝑜𝑜𝑑)Pi​(good) 是第 𝑖i 个箱中好的样本占比,
  • 𝑃𝑖(𝑏𝑎𝑑)Pi​(bad) 是第 𝑖i 个箱中坏的样本占比。

IV 值的解释如下:

  • 𝐼𝑉=0IV=0:表示特征与目标变量之间没有关联性;
  • 𝐼𝑉<0.02IV<0.02:特征对目标变量的预测能力很弱;
  • 0.02≤𝐼𝑉<0.10.02≤IV<0.1:特征对目标变量的预测能力较弱;
  • 0.1≤𝐼𝑉<0.30.1≤IV<0.3:特征对目标变量的预测能力一般;
  • 0.3≤𝐼𝑉<0.50.3≤IV<0.5:特征对目标变量的预测能力较强;
  • 𝐼𝑉≥0.5IV≥0.5:特征对目标变量的预测能力非常强。

IV 值越大,表示特征与目标变量的相关性越强,该特征对于模型的预测能力也越强。在特征选择过程中,通常会将 IV 值较低的特征剔除,以减少模型的复杂度和提高预测性能。

假设有一个银行数据集,包含客户的信用评分(Credit Score)和他们的违约情况(Default)作为目标变量,其中 1 表示违约,0 表示未违约。我们希望计算信用评分的 IV 值,以评估它对客户违约情况的预测能力。

首先,我们需要对信用评分进行分箱处理,然后计算每个箱中好坏客户的比例,最后根据 IV 值的公式计算 IV。

假设分箱后的数据如下:

分箱好客户数坏客户数总客户数好客户比例坏客户比例IV 贡献
300-40080020010000.80.2??
400-50060040010000.60.4??
500-60040060010000.40.6??
600-70020080010000.20.8??

现在,我们来计算每个箱的 IV 贡献,然后将它们加总以得到信用评分的总 IV 值。

𝐼𝑉300−400=(0.8−0.2)⋅ln⁡(0.80.2)IV300−400​=(0.8−0.2)⋅ln(0.20.8​)𝐼𝑉400−500=(0.6−0.4)⋅ln⁡(0.60.4)IV400−500​=(0.6−0.4)⋅ln(0.40.6​)𝐼𝑉500−600=(0.4−0.6)⋅ln⁡(0.40.6)IV500−600​=(0.4−0.6)⋅ln(0.60.4​)𝐼𝑉600−700=(0.2−0.8)⋅ln⁡(0.20.8)IV600−700​=(0.2−0.8)⋅ln(0.80.2​)

𝐼𝑉信用评分=𝐼𝑉300−400+𝐼𝑉400−500+𝐼𝑉500−600+𝐼𝑉600−700IV信用评分​=IV300−400​+IV400−500​+IV500−600​+IV600−700​

通过计算,得到每个箱的 IV 贡献,然后加总,即可得到信用评分的总 IV 值。

请注意,计算中的对数一般取自然对数。

𝐼𝑉300−400=(0.8−0.2)⋅ln⁡(0.80.2)=0.6⋅ln⁡(4)≈0.916IV300−400​=(0.8−0.2)⋅ln(0.20.8​)=0.6⋅ln(4)≈0.916

𝐼𝑉400−500=(0.6−0.4)⋅ln⁡(0.60.4)=0.2⋅ln⁡(1.5)≈0.276IV400−500​=(0.6−0.4)⋅ln(0.40.6​)=0.2⋅ln(1.5)≈0.276

𝐼𝑉500−600=(0.4−0.6)⋅ln⁡(0.40.6)=−0.2⋅ln⁡(32)≈0.276IV500−600​=(0.4−0.6)⋅ln(0.60.4​)=−0.2⋅ln(23​)≈0.276

𝐼𝑉600−700=(0.2−0.8)⋅ln⁡(0.20.8)=−0.6⋅ln⁡(0.25)≈0.916IV600−700​=(0.2−0.8)⋅ln(0.80.2​)=−0.6⋅ln(0.25)≈0.916

𝐼𝑉信用评分=0.916+0.276+0.276+0.916=2.384IV信用评分​=0.916+0.276+0.276+0.916=2.384

所以,信用评分的 IV 值约为 2.384。

通过 IV 值的计算,我们可以评估信用评分对客户违约情况的预测能力。在实际应用中,IV 值越高的特征通常被认为对目标变量的预测能力越强。

  • 19
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值