IV值

评分模型开发包括变量处理、模型建立、评分转换和模型评估。在变量处理阶段,通过计算WOE值和IV值来筛选和处理变量。IV值大于0.02的变量会被考虑进入模型,若超过0.5则可能用于分群。WOE值反映风险,IV值衡量区分能力。R语言可以便捷地计算IV值。
摘要由CSDN通过智能技术生成

评分模型开发主要分为变量处理、模型建立、评分转换、模型评估4个步骤。
其中在变量处理的时候涉及IV值和WOE值的计算。

基于抽样后得到训练样本集数据,由于变量数量通常较多,不推荐直接采用逐步回归的方法进行筛选。
由于各个变量的量纲和取值区间存在很大的差别,通常会对变量的取值进行分箱并计算 证据权重 WOE值(weight of evidence) ,从而降低变量属性的个数,并且平滑的变量的变化趋势。

接下来,在此基础上计算 信息价值IV(information value) ,
**一般我们选择 IV值大于0.02的那些变量进入模型。
如果IV值大于 0.5 ,改变量就是属于过预测变量,通常被选座分群变量,将样本拆分成多个群体,针对不同的群体分别开发评分卡。**

分群的依据通常也会根据业务上的需要进行设定,常见以区域变量作为分群的标准。

证据权重WOE是用来衡量变量某个熟悉的风险的指标,WOE的计算公式:
这里写图片描述

  • 4
    点赞
  • 40
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
相关性分析是一种统计方法,用于衡量两个或多个变量之间的关系强度和方向。IV(Information Value)检测是一种常用的变量筛选方法,用于评估变量的预测能力。 相关性分析主要通过计算相关系数来衡量变量之间的相关性。常用的相关系数有皮尔逊相关系数和斯皮尔曼相关系数。皮尔逊相关系数适用于连续变量之间的相关性分析,范围在-1到1之间,绝对越接近1表示相关性越强。斯皮尔曼相关系数适用于任意变量之间的相关性分析,也在-1到1之间,能够较好地处理非线性关系。 IV检测是一种用于评估变量的预测能力的方法,特别适用于二分类问题。IV通过计算各个变量在不同分类下的分布差异来衡量变量与目标变量之间的关系强度。一般来说,IV越大,说明变量对目标变量的预测能力越强。 在相关性分析中,我们可以通过计算相关系数来判断不同变量之间的相关性。如果两个变量的相关系数接近1或-1,说明它们之间存在强相关。但是需要注意的是,相关性并不意味着因果关系,只是表明两个变量之间存在某种关联。 在IV检测中,我们可以根据变量的IV来筛选变量。一般来说,IV在0.02以下被认为是无效的预测能力,0.02到0.1之间被认为是弱预测能力,0.1到0.3之间是中等预测能力,大于0.3被认为是强预测能力。通过筛选IV较高的变量,我们可以提高模型的预测准确性。 综上所述,相关性分析和IV检测都是用于分析变量之间关系的方法。相较于相关性分析,IV检测更加注重变量的预测能力,并通过计算IV进行变量筛选,可以帮助我们选择最能够预测目标变量的变量。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值