逻辑回归评分卡整理

1.逻辑回归模型简介

1.1. 逻辑斯蒂(Logistic)分布

分布函数:

F(x)=P(X \leq x)=\frac{1}{1+e^{-(x-\mu) / \gamma}}

密度函数:

f(x)=F^{\prime}(X \leq x)=\frac{e^{-(x-\mu) / \gamma}}{\gamma\left(1+e^{-(x-\mu) / \gamma}\right)^{2}}

其中,\mu表示位置参数,\gamma>0表示形状参数。函数图像如下:

1.2. Logistic回归

二项Logistic回归模型是一种分类模型,由条件概率P(Y|X)表示。其中,X取值为实数,随机变量Y取值为1或0。

二项Logistic回归模型是如下的条件概率分布:

P(Y=1 \mid x)=\frac{\exp (w \cdot x+b)}{1+\exp (w \cdot x+b)}

P(Y=0 \mid x)=\frac{1}{1+\exp (w \cdot x+b)}

这里,x \in \mathbf{R}^{n}是输入,Y \in\{0,1\}是输出。w \in \mathbf{R}^{n}b \in \mathbf{R}是参数,w为权值向量,b为偏置,w \cdot xwb的内积。

引入“事件几率”的概念:事件发生的概率与事件不发生的概率的比值。即,若事件发生概率为p,则该事件的几率为p \over 1-p,对数几率为\log \frac{p}{1-p}

则对于逻辑回归而言,

\log \frac{P(Y=1 \mid x)}{1-P(Y=1 \mid x)}=w \cdot x

1.3. 模型参数估计

逻辑斯蒂回归模型训练时,对于给定的训练数据集T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots\right.,(x_{N}, y_{N})\},其中,x_{i} \in \mathbf{R}^{n}, y_{i} \in\{0,1\},可以应用极大似然估计法估计模型参数,从而得到逻辑斯蒂回归模型。

设:

P(Y=1 \mid x)=\pi(x), \quad P(Y=0 \mid x)=1-\pi(x)

似然函数为:

\prod_{i=1}^{N}\left[\pi\left(x_{i}\right)\right]^{y_{i}}\left[1-\pi\left(x_{i}\right)\right]^{1-y_{i}}

对数似然函数为:

\begin{aligned} L(w) &=\sum_{i=1}^{N}\left[y_{i} \log \pi\left(x_{i}\right)+\left(1-y_{i}\right) \log \left(1-\pi\left(x_{i}\right)\right)\right] \\ &=\sum_{i=1}^{N}\left[y_{i} \log \frac{\pi\left(x_{i}\right)}{1-\pi\left(x_{i}\right)}+\log \left(1-\pi\left(x_{i}\right)\right)\right] \\ &=\sum_{i=1}^{N}\left[y_{i}\left(w \bullet x_{i}\right)-\log \left(1+\exp \left(w \cdot x_{i}\right)\right]\right. \end{aligned}

L(w)求极大值,得到w的估计值。

2. woe&iv介绍

风控模型—WOE与IV指标的深入理解应用 - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/80134853

2.1. woe(weight of evidence)

分箱后,每个箱体的woe值计算公式如下:

W O E_{i}=\ln \left(\frac{B a d_{i}}{B a d_{T}} / \frac{G o o d_{i}}{G o o d_{T}}\right)=\ln \left(\frac{B a d_{i}}{B a d_{T}}\right)-\ln \left(\frac{G o o d_{i}}{G o o d_{T}}\right)

其中,Bad_iGood_i分别表示第i个箱体内坏样本、好样本个数,Bad_TGood_T分别表示全体样本中坏样本、好样本个数。

需要注意的是,当分箱内只有好人或坏人时,可对woe公式进行修正:

W O E_{i}=\ln \left(\left(\frac{B a d_{i}+0.5}{\text { Good }_{i}+0.5}\right) /\left(\frac{B a d_{T}}{\text { Good }_{T}}\right)\right)

根据woe公式,可以将woe公式理解为每个分箱内坏人分布和好人分布的差异。对公式再进行变换:

W O E_{i}=\ln \left(\frac{B a d_{i}}{B a d_{T}} / \frac{G o o d_{i}}{G o o d_{T}}\right)=\ln \left(\frac{B a d_{i}}{G o o d_{i}}\right)-\ln \left(\frac{B a d_{T}}{G o o d_{T}}\right)

此时,可以理解为每个分箱内坏坏好比和总体坏好比的差异。

2.2. iv(information value)

可以认为是woe的加权和,具体公式如下:

\begin{aligned} &I V_{i}=\left(\frac{\operatorname{Bad}_{i}}{\operatorname{Bad}_{T}}-\frac{G o o d_{i}}{G o o d_{T}}\right) * W O E_{i} \\ &=\left(\frac{\operatorname{Bad}_{i}}{\operatorname{Bad}_{T}}-\frac{G o o d_{i}}{\operatorname{Good}_{T}}\right) * \ln \left(\frac{\operatorname{Bad}_{i}}{\operatorname{Bad}_{T}} / \frac{\operatorname{Good}_{i}}{\operatorname{Good}_{T}}\right) \end{aligned}

I V=\sum_{i=1}^{n} I V_{i}

3. 利用逻辑回归模型制作评分卡

评分卡模型基于假设“历史样本和未来样本服从同一总体分布”,故而才能从历史样本中归纳出数理统计规律来预测未来样本的表现。利用逻辑回归模型制作评分卡的流程如下:

  • step1. 从不同信道里获取了观测数据(Data),并从中提取了特征X。
  • step2. 此时发现各渠道采集的信息并不在一个尺度上,无法融合。因此,我们通过WOE变换对信息进行处理,将其对标到统一尺度上。
  • step3. LR模型对不同信息采用不同权重(weight)进行加权融合,并通过sigmoid函数映射为0~1的概率。
  • step4. 基于LR模型的输出结果,人工进行决策,判定好人还是坏人。

更多可参考:

逻辑回归评分卡映射 (qq.com)https://mp.weixin.qq.com/s/CHW70SfP-0fBLu23NKI_cg逻辑回归评分卡实现和评估 - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/119332569

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值