逻辑回归_评分卡分数转换

短腿叔叔

已于 2022-05-24 22:35:19 修改

阅读量2.5k

点赞数 1

文章标签：逻辑回归

于 2022-05-24 22:27:43 首次发布

本文链接：https://blog.csdn.net/weixin_42471573/article/details/124956221

版权

评分卡模型通过将违约概率与正常概率的比值odds映射为分数，利用逻辑回归原理进行分数计算。文章介绍了如何从odds转换为评分，并详细阐述了评分卡的构建过程，包括基准分、PDO（point of double）的设定，以及如何通过这两个参数求解常数A和B。最后展示了评分卡模型的数学表达式，并给出了一组示例计算。

摘要由CSDN通过智能技术生成

四、评分卡分数转换

模型训练好后，我们需要把对每个变量的每个分箱（也就是数值段）转换成具体的分值。在讲计算过程前，先来讲点前置知识。评分卡中不直接用客户违约率 $p$ ，而是用违约概率与正常概率的比值，称为 $o d d s$ ，即:

$\frac{p}{1-p} \Rightarrow p = \frac{odds}{1+odds} ~~~~ (1)$

评分卡为什么会把 $o d d s$ 映射成分数，其原因是因为根据逻辑回归原理：

$\frac{1} {1+e^{-\theta ^T x}} \Rightarrow ln(\frac{p}{1-p}) = \theta ^T x ~~~~(2)$

所以将 $o d d s$ 映射成分数，可以和逻辑回归无缝连接。

$\theta ^T x ~~~~ (3)$

评分卡的背后逻辑是 $o d d s$ 的变动与评分变动的映射（把 $o d d s$ 映射为评分），我们可以设计这个一个公式：

$S c o r e = A - B * l n (o d d s) (4)$

其中 $A$ 与 $B$ 是常数， $B$ 前面取负号的原因，是让违约概率越低，得分越高。因为实际业务里，分数也高风险越低，当然你也可以设计个风险越低分数越低的评分卡，但风控里还是默认高分高信用低风险。计算出 $A$ 、 $B$ 的方法如下，首先设定两个假设：

1.基准分。基准分为某个比率 $\theta _0$ 时的得分 $P_0$ 。业界某些风控策略基准分都设置为 $500 / 600 / 650$ 。基准分为 $B*\theta _0$

2. $P D O （ p o i n t o f d o u b l e ）$ ，比率翻番时分数的变动值。假设我们设置为当 $o d d s$ 翻倍时，分值减少30。

设置好 $\theta _0、P_0 、PDO$ 后，就能算出 $A$ 和 $B$ 。怎么算？首先把 $\theta _0、P_0$ 代入公式，有

$P_0 = A - B*ln(\theta _0) ~~~~ (5)$

根据 $P D O$ 的定义，我们有下面等式：

$P_0- PDO = A - B*ln(2\theta _0) ~~~~ (6)$

解上面两个式子，把公式 $（ 5 ）$ 的右边替换掉公式 $（ 6 ）$ 左边，可以算出 $B$ ，从而可以算得 $A$ 的解。最后 $A 、 B$ 的解分别为：

$\frac{PDO}{ln2} ~~~~ (7)$

$P_0+ B*ln(\theta _0) ~~~~ (8)$

记住这两个公式，这两个公式是把分箱映射为分数的关键，评分卡里每一个变量的每一个分箱有一个对应分值。前面的 $\theta ^T x$ 是一个矩阵计算，展开后我们有:

$B*(\theta ^T x) = A - B*(\theta _0 + \theta _1 x_1 +\cdots + \theta _n x_n) ~~~~ (9)$

其中变量 $x_1、x_2$ 等等是出现在最终模型的入模变量。由于所有的入模变量都进行了 $W O E$ 编码，可以将这些自变量中的每一个都写 $(\theta _i \omega_{ij})\delta _{ij}$ 的形式,其中 $\omega_{ij}$ 为第 $i$ 个特征的第 $j$ 个分箱的WOE值， $\delta _{ij}$ 是0，1逻辑变量，当 $\delta _{ij} =1$ 时，代表自特征 $i$ 取第 $j$ 个分箱，当 $\delta _{ij} =0$ 时代表特征 $i$ 不取第 $j$ 个分箱。最终得到评分卡模型：