逻辑回归评分卡整理

nikita_zj

已于 2022-01-28 10:47:53 修改

阅读量2.4k

点赞数 1

分类专栏：模型文章标签： python 逻辑回归

于 2021-12-29 17:30:36 首次发布

本文链接：https://blog.csdn.net/nikita_zj/article/details/121540605

版权

模型专栏收录该内容

15 篇文章 5 订阅

订阅专栏

1.逻辑回归模型简介

1.1. 逻辑斯蒂（Logistic）分布

分布函数：

$F(x)=P(X \leq x)=\frac{1}{1+e^{-(x-\mu) / \gamma}}$

密度函数：

$f(x)=F^{\prime}(X \leq x)=\frac{e^{-(x-\mu) / \gamma}}{\gamma\left(1+e^{-(x-\mu) / \gamma}\right)^{2}}$

其中， $\mu$ 表示位置参数， $\gamma>0$ 表示形状参数。函数图像如下：

1.2. Logistic回归

二项Logistic回归模型是一种分类模型，由条件概率 $P(Y|X)$ 表示。其中，X取值为实数，随机变量Y取值为1或0。

二项Logistic回归模型是如下的条件概率分布：

$P(Y=1 \mid x)=\frac{\exp (w \cdot x+b)}{1+\exp (w \cdot x+b)}$

$P(Y=0 \mid x)=\frac{1}{1+\exp (w \cdot x+b)}$

这里， $x \in \mathbf{R}^{n}$ 是输入， $Y \in\{0,1\}$ 是输出。 $w \in \mathbf{R}^{n}$ 和 $b \in \mathbf{R}$ 是参数， $w$ 为权值向量， $b$ 为偏置， $w \cdot x$ 为 $w$ 和 $b$ 的内积。

引入“事件几率”的概念：事件发生的概率与事件不发生的概率的比值。即，若事件发生概率为p，则该事件的几率为 $p \over 1-p$ ，对数几率为 $\log \frac{p}{1-p}$ 。

则对于逻辑回归而言，

$\log \frac{P(Y=1 \mid x)}{1-P(Y=1 \mid x)}=w \cdot x$

1.3. 模型参数估计

逻辑斯蒂回归模型训练时，对于给定的训练数据集 $T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots\right.,(x_{N}, y_{N})\}$ ,其中， $x_{i} \in \mathbf{R}^{n}, y_{i} \in\{0,1\}$ ，可以应用极大似然估计法估计模型参数，从而得到逻辑斯蒂回归模型。

设：

$P(Y=1 \mid x)=\pi(x), \quad P(Y=0 \mid x)=1-\pi(x)$

似然函数为：

$\prod_{i=1}^{N}\left[\pi\left(x_{i}\right)\right]^{y_{i}}\left[1-\pi\left(x_{i}\right)\right]^{1-y_{i}}$

对数似然函数为：

$\begin{aligned} L(w) &=\sum_{i=1}^{N}\left[y_{i} \log \pi\left(x_{i}\right)+\left(1-y_{i}\right) \log \left(1-\pi\left(x_{i}\right)\right)\right] \\ &=\sum_{i=1}^{N}\left[y_{i} \log \frac{\pi\left(x_{i}\right)}{1-\pi\left(x_{i}\right)}+\log \left(1-\pi\left(x_{i}\right)\right)\right] \\ &=\sum_{i=1}^{N}\left[y_{i}\left(w \bullet x_{i}\right)-\log \left(1+\exp \left(w \cdot x_{i}\right)\right]\right. \end{aligned}$

对 $L(w)$ 求极大值，得到 $w$ 的估计值。

2. woe&iv介绍

风控模型—WOE与IV指标的深入理解应用 - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/80134853

2.1. woe（weight of evidence）

分箱后，每个箱体的woe值计算公式如下：

$W O E_{i}=\ln \left(\frac{B a d_{i}}{B a d_{T}} / \frac{G o o d_{i}}{G o o d_{T}}\right)=\ln \left(\frac{B a d_{i}}{B a d_{T}}\right)-\ln \left(\frac{G o o d_{i}}{G o o d_{T}}\right)$

其中， $Bad_i$ ， $Good_i$ 分别表示第i个箱体内坏样本、好样本个数， $Bad_T$ ， $Good_T$ 分别表示全体样本中坏样本、好样本个数。

需要注意的是，当分箱内只有好人或坏人时，可对woe公式进行修正：

$W O E_{i}=\ln \left(\left(\frac{B a d_{i}+0.5}{\text { Good }_{i}+0.5}\right) /\left(\frac{B a d_{T}}{\text { Good }_{T}}\right)\right)$

根据woe公式，可以将woe公式理解为每个分箱内坏人分布和好人分布的差异。对公式再进行变换：

$W O E_{i}=\ln \left(\frac{B a d_{i}}{B a d_{T}} / \frac{G o o d_{i}}{G o o d_{T}}\right)=\ln \left(\frac{B a d_{i}}{G o o d_{i}}\right)-\ln \left(\frac{B a d_{T}}{G o o d_{T}}\right)$

此时，可以理解为每个分箱内坏坏好比和总体坏好比的差异。

2.2. iv(information value)

可以认为是woe的加权和，具体公式如下：

$\begin{aligned} &I V_{i}=\left(\frac{\operatorname{Bad}_{i}}{\operatorname{Bad}_{T}}-\frac{G o o d_{i}}{G o o d_{T}}\right) * W O E_{i} \\ &=\left(\frac{\operatorname{Bad}_{i}}{\operatorname{Bad}_{T}}-\frac{G o o d_{i}}{\operatorname{Good}_{T}}\right) * \ln \left(\frac{\operatorname{Bad}_{i}}{\operatorname{Bad}_{T}} / \frac{\operatorname{Good}_{i}}{\operatorname{Good}_{T}}\right) \end{aligned}$