2016-03-02 15:36 28747
人阅读
评论
(8)
收藏举报
分类:
数据挖掘模型(
7
)
版权声明:本文为博主原创文章,未经博主允许不得转载。
目录
(?)[+]
1.IV
的用途
IV
的全称是
Information Value
,中文意思是信息价值,或者信息量。
我们在用逻辑回归、
决策树等模型方法构建分类模型时,
经常需要对自变量进行筛选。
比如
我们有
200
个候选自变量,通常情况下,不会直接把
200
个变量直接放到模型中去进行拟
合训练,而是会用一些方法,从这
200
个自变量中挑选一些出来,放进模型,形成入模变
量列表。那么我们怎么去挑选入模变量呢?
挑选入模变量过程是个比较复杂的过程,
需要考虑的因素很多,比如:
变量的预测能力,变
量之间的相关性,变量的简单性(容易生成和使用),变量的强壮性(不容易被绕过),变
量在业务上的可解释性(被挑战时可以解释的通)
等等。
但是,其中最主要和最直接的衡量
标准是变量的预测能力。
“变量的预测能力”这个说法很笼统,很主观,非量化,在筛选变量的时候我们总不能说:
“我觉得这个变量预测能力很强,
所以他要进入模型”
吧?我们需要一些具体的量化指标来
衡量每自变量的预测能力,并根据这些量化指标的大小,来确定哪些变量进入模型。
IV
就
是这样一种指标,
他可以用来衡量自变量的预测能力。
类似的指标还有信息增益、
基尼系数
等等。