机器学习-信息价值IV概念和例题

信息价值(IV,Information Value)是评估特征对目标变量的预测能力的一种指标。它用于衡量一个特征在分箱后对目标变量的区分能力。IV 值越高,表示特征对目标变量的预测能力越强,也就是说,该特征越有助于区分不同类别或者预测目标。

IV 值的计算公式如下:

𝐼𝑉=∑𝑖=1𝑁(𝑃𝑖(𝑔𝑜𝑜𝑑)−𝑃𝑖(𝑏𝑎𝑑))⋅ln⁡(𝑃𝑖(𝑔𝑜𝑜𝑑)𝑃𝑖(𝑏𝑎𝑑))IV=∑i=1N​(Pi​(good)−Pi​(bad))⋅ln(Pi​(bad)Pi​(good)​)

其中,

  • 𝑁N 是分箱的个数,
  • 𝑃𝑖(𝑔𝑜𝑜𝑑)Pi​(good) 是第 𝑖i 个箱中好的样本占比,
  • 𝑃𝑖(𝑏𝑎𝑑)Pi​(bad) 是第 𝑖i 个箱中坏的样本占比。

IV 值的解释如下:

  • 𝐼𝑉=0IV=0:表示特征与目标变量之间没有关联性;
  • 𝐼𝑉<0.02IV<0.02:特征对目标变量的预测能力很弱;
  • 0.02≤𝐼𝑉<0.10.02≤IV<0.1:特征对目标变量的预测能力较弱;
  • 0.1≤𝐼𝑉<0.30.1≤IV<0.3:特征对目标变量的预测能力一般;
  • 0.3≤𝐼𝑉<0.50.3≤IV<0.5:特征对目标变量的预测能力较强;
  • 𝐼𝑉≥0.5IV≥0.5:特征对目标变量的预测能力非常强。

IV 值越大,表示特征与目标变量的相关性越强,该特征对于模型的预测能力也越强。在特征选择过程中,通常会将 IV 值较低的特征剔除,以减少模型的复杂度和提高预测性能。

假设有一个银行数据集,包含客户的信用评分(Credit Score)和他们的违约情况(Default)作为目标变量,其中 1 表示违

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值