信息价值(IV,Information Value)是评估特征对目标变量的预测能力的一种指标。它用于衡量一个特征在分箱后对目标变量的区分能力。IV 值越高,表示特征对目标变量的预测能力越强,也就是说,该特征越有助于区分不同类别或者预测目标。
IV 值的计算公式如下:
𝐼𝑉=∑𝑖=1𝑁(𝑃𝑖(𝑔𝑜𝑜𝑑)−𝑃𝑖(𝑏𝑎𝑑))⋅ln(𝑃𝑖(𝑔𝑜𝑜𝑑)𝑃𝑖(𝑏𝑎𝑑))IV=∑i=1N(Pi(good)−Pi(bad))⋅ln(Pi(bad)Pi(good))
其中,
- 𝑁N 是分箱的个数,
- 𝑃𝑖(𝑔𝑜𝑜𝑑)Pi(good) 是第 𝑖i 个箱中好的样本占比,
- 𝑃𝑖(𝑏𝑎𝑑)Pi(bad) 是第 𝑖i 个箱中坏的样本占比。
IV 值的解释如下:
- 𝐼𝑉=0IV=0:表示特征与目标变量之间没有关联性;
- 𝐼𝑉<0.02IV<0.02:特征对目标变量的预测能力很弱;
- 0.02≤𝐼𝑉<0.10.02≤IV<0.1:特征对目标变量的预测能力较弱;
- 0.1≤𝐼𝑉<0.30.1≤IV<0.3:特征对目标变量的预测能力一般;
- 0.3≤𝐼𝑉<0.50.3≤IV<0.5:特征对目标变量的预测能力较强;
- 𝐼𝑉≥0.5IV≥0.5:特征对目标变量的预测能力非常强。
IV 值越大,表示特征与目标变量的相关性越强,该特征对于模型的预测能力也越强。在特征选择过程中,通常会将 IV 值较低的特征剔除,以减少模型的复杂度和提高预测性能。
假设有一个银行数据集,包含客户的信用评分(Credit Score)和他们的违约情况(Default)作为目标变量,其中 1 表示违