python计算iv值_数据挖掘模型中的IV和WOE详解

2016-03-02 15:36 28747

人阅读

评论

(8)

收藏举报

分类:

数据挖掘模型(

7

)

版权声明:本文为博主原创文章,未经博主允许不得转载。

目录

(?)[+]

1.IV

的用途

IV

的全称是

Information Value

,中文意思是信息价值,或者信息量。

我们在用逻辑回归、

决策树等模型方法构建分类模型时,

经常需要对自变量进行筛选。

比如

我们有

200

个候选自变量,通常情况下,不会直接把

200

个变量直接放到模型中去进行拟

合训练,而是会用一些方法,从这

200

个自变量中挑选一些出来,放进模型,形成入模变

量列表。那么我们怎么去挑选入模变量呢?

挑选入模变量过程是个比较复杂的过程,

需要考虑的因素很多,比如:

变量的预测能力,变

量之间的相关性,变量的简单性(容易生成和使用),变量的强壮性(不容易被绕过),变

量在业务上的可解释性(被挑战时可以解释的通)

等等。

但是,其中最主要和最直接的衡量

标准是变量的预测能力。

“变量的预测能力”这个说法很笼统,很主观,非量化,在筛选变量的时候我们总不能说:

“我觉得这个变量预测能力很强,

所以他要进入模型”

吧?我们需要一些具体的量化指标来

衡量每自变量的预测能力,并根据这些量化指标的大小,来确定哪些变量进入模型。

IV

是这样一种指标,

他可以用来衡量自变量的预测能力。

类似的指标还有信息增益、

基尼系数

等等。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值