【评分卡】评分卡入门与创建原则——分箱、WOE、IV、分值分配

最新推荐文章于 2025-04-08 20:09:22 发布

置顶

scxyz_

最新推荐文章于 2025-04-08 20:09:22 发布

阅读量10w+

点赞数 71

分类专栏：大数据风控文章标签：评分卡分箱 WOE IV Logistic

本文链接：https://blog.csdn.net/sscc_learning/article/details/78591210

版权

本文详细介绍了评分卡的创建过程，包括变量分析、WOE和IV的计算、分箱策略以及评分卡的计算方法。通过分箱将连续变量离散化，利用WOE和IV评估预测能力，调整分箱以最大化IV值。接着，建立了基于Logistic Regression的模型，并探讨了评分卡的分值分配。强调在实际应用中，根据变量的WOE值计算每个用户的最终评分。最后，提醒特征选择时并非维度越多越好，应保留高权重、低相关性的变量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这里写图片描述

本文主要讲“变量选择”“模型开发”“评分卡创建和刻度”

变量分析

首先，需要确定变量之间是否存在共线性，若存在高度相关性，只需保存最稳定、预测能力最高的那个。需要通过 VIF(variance inflation factor）也就是方差膨胀因子进行检验。
变量分为连续变量和分类变量。在评分卡建模中，变量分箱（binning）是对连续变量离散化（discretization）的一种称呼。要将logistic模型转换为标准评分卡的形式，这一环节是必须完成的。信用评分卡开发中一般有常用的等距分段、等深分段、最优分段。

单因子分析，用来检测各变量的预测强度，方法为WOE、IV；

WOE

WOE(weight of Evidence)字面意思证据权重，对分箱后的每组进行。假设good为好客户（未违约），bad为坏客户（违约）。
woe公式
#good(i)表示每组中标签为good的数量，#good(T)为good的总数量；bad相同。

这里说一下，有的地方计算WOE时使用的是 $\frac{bad占比}{good占比}$ 的，其实是没有影响的，因为我们计算WOE的目的其实是通过WOE去计算IV，从而达到预测的目的。后面IV计算中，会通过相减后相乘的方式把负号给抵消掉。所以不管谁做分子，谁做分母，最终的IV预测结果是不变的。

IV

IV(information value)衡量的是某一个变量的信息量，公式如下：
iv公式
N为分组的组数；
IV可用来表示一个变量的预测能力。

IV	预测能力
<0.03	无预测能力
0.03~0.09	低
0.1~0.29	中
0.3~0.49	高
>=0.5	极高

根据IV值来调整分箱结构并重新计算WOE和IV，直到IV达到最大值，此时的分箱效果最好。

分组一般原则

组间差异大
组内差异小
每组占比不低于5%
必须有好、坏两种分类

举例说明

例如按年龄分组，一般进行分箱，我们都喜欢按照少年、青年、中年、老年几大类进行分组，但效果真的不一定好：

Age	good	bad	WOE
<18	50	40	$ln(\frac{50/330}{40/220}) = -0.182321556793955$
18~30	100	60	$ln(\frac{100/330}{60/220}) = 0.105360515657826$
30~60	100	80	$ln(\frac{100/330}{80/220}) = -0.182321556793955$
>60	80	40	$ln(\frac{80/330}{40/220}) = 0.287682072451781$
ALL	330	220

根据IV值可以看出，预测能力低，建议重新调整分箱。

建立模型

先进行数据划分，一般70%训练集、30%测试集。训练集用于训练模型，测试集用于检测训练后的模型。
一般采用Logistic Regression建立模型，训练模型。将建好的模型对待测样本进行预测。
模型创建标准

评分卡

评分卡计算方法

odds为good用户概率（p）与bad用户概率（1-p）的比值。
$odds=\frac{好客户概率}{坏客户概率}=\frac{p}{1-p}$
评分卡设定的分值刻度可以通过将分值表示为比率对数的线性表达式来定义。公式如下：
$score_总=A+B*ln(odds)$
注：若odds是 $\frac{好客户概率}{坏客户概率}$

最低0.47元/天解锁文章