信息价值(IV,Information Value)是评估特征对目标变量的预测能力的一种指标。它用于衡量一个特征在分箱后对目标变量的区分能力。IV 值越高,表示特征对目标变量的预测能力越强,也就是说,该特征越有助于区分不同类别或者预测目标。
IV 值的计算公式如下:
𝐼𝑉=∑𝑖=1𝑁(𝑃𝑖(𝑔𝑜𝑜𝑑)−𝑃𝑖(𝑏𝑎𝑑))⋅ln(𝑃𝑖(𝑔𝑜𝑜𝑑)𝑃𝑖(𝑏𝑎𝑑))IV=∑i=1N(Pi(good)−Pi(bad))⋅ln(Pi(bad)Pi(good))
其中,
- 𝑁N 是分箱的个数,
- 𝑃𝑖(𝑔𝑜𝑜𝑑)Pi(good) 是第 𝑖i 个箱中好的样本占比,
- 𝑃𝑖(𝑏𝑎𝑑)Pi(bad) 是第 𝑖i 个箱中坏的样本占比。
IV 值的解释如下:
- 𝐼𝑉=0IV=0:表示特征与目标变量之间没有关联性;
- 𝐼𝑉<0.02IV<0.02:特征对目标变量的预测能力很弱;
- 0.02≤𝐼𝑉<0.10.02≤IV<0.1:特征对目标变量的预测能力较弱;
- 0.1≤𝐼𝑉<0.30.1≤IV<0.3:特征对目标变量的预测能力一般;
- 0.3≤𝐼𝑉<0.50.3≤IV<0.5:特征对目标变量的预测能力较强;
- 𝐼𝑉≥0.5IV≥0.5:特征对目标变量的预测能力非常强。
IV 值越大,表示特征与目标变量的相关性越强,该特征对于模型的预测能力也越强。在特征选择过程中,通常会将 IV 值较低的特征剔除,以减少模型的复杂度和提高预测性能。
假设有一个银行数据集,包含客户的信用评分(Credit Score)和他们的违约情况(Default)作为目标变量,其中 1 表示违约,0 表示未违约。我们希望计算信用评分的 IV 值,以评估它对客户违约情况的预测能力。
首先,我们需要对信用评分进行分箱处理,然后计算每个箱中好坏客户的比例,最后根据 IV 值的公式计算 IV。
假设分箱后的数据如下:
分箱 | 好客户数 | 坏客户数 | 总客户数 | 好客户比例 | 坏客户比例 | IV 贡献 |
---|---|---|---|---|---|---|
300-400 | 800 | 200 | 1000 | 0.8 | 0.2 | ?? |
400-500 | 600 | 400 | 1000 | 0.6 | 0.4 | ?? |
500-600 | 400 | 600 | 1000 | 0.4 | 0.6 | ?? |
600-700 | 200 | 800 | 1000 | 0.2 | 0.8 | ?? |
现在,我们来计算每个箱的 IV 贡献,然后将它们加总以得到信用评分的总 IV 值。
𝐼𝑉300−400=(0.8−0.2)⋅ln(0.80.2)IV300−400=(0.8−0.2)⋅ln(0.20.8)𝐼𝑉400−500=(0.6−0.4)⋅ln(0.60.4)IV400−500=(0.6−0.4)⋅ln(0.40.6)𝐼𝑉500−600=(0.4−0.6)⋅ln(0.40.6)IV500−600=(0.4−0.6)⋅ln(0.60.4)𝐼𝑉600−700=(0.2−0.8)⋅ln(0.20.8)IV600−700=(0.2−0.8)⋅ln(0.80.2)
𝐼𝑉信用评分=𝐼𝑉300−400+𝐼𝑉400−500+𝐼𝑉500−600+𝐼𝑉600−700IV信用评分=IV300−400+IV400−500+IV500−600+IV600−700
通过计算,得到每个箱的 IV 贡献,然后加总,即可得到信用评分的总 IV 值。
请注意,计算中的对数一般取自然对数。
𝐼𝑉300−400=(0.8−0.2)⋅ln(0.80.2)=0.6⋅ln(4)≈0.916IV300−400=(0.8−0.2)⋅ln(0.20.8)=0.6⋅ln(4)≈0.916
𝐼𝑉400−500=(0.6−0.4)⋅ln(0.60.4)=0.2⋅ln(1.5)≈0.276IV400−500=(0.6−0.4)⋅ln(0.40.6)=0.2⋅ln(1.5)≈0.276
𝐼𝑉500−600=(0.4−0.6)⋅ln(0.40.6)=−0.2⋅ln(32)≈0.276IV500−600=(0.4−0.6)⋅ln(0.60.4)=−0.2⋅ln(23)≈0.276
𝐼𝑉600−700=(0.2−0.8)⋅ln(0.20.8)=−0.6⋅ln(0.25)≈0.916IV600−700=(0.2−0.8)⋅ln(0.80.2)=−0.6⋅ln(0.25)≈0.916
𝐼𝑉信用评分=0.916+0.276+0.276+0.916=2.384IV信用评分=0.916+0.276+0.276+0.916=2.384
所以,信用评分的 IV 值约为 2.384。
通过 IV 值的计算,我们可以评估信用评分对客户违约情况的预测能力。在实际应用中,IV 值越高的特征通常被认为对目标变量的预测能力越强。