1.逻辑回归模型简介
1.1. 逻辑斯蒂(Logistic)分布
分布函数:
密度函数:
其中,表示位置参数,表示形状参数。函数图像如下:
1.2. Logistic回归
二项Logistic回归模型是一种分类模型,由条件概率表示。其中,X取值为实数,随机变量Y取值为1或0。
二项Logistic回归模型是如下的条件概率分布:
这里,是输入,是输出。和是参数,为权值向量,为偏置,为和的内积。
引入“事件几率”的概念:事件发生的概率与事件不发生的概率的比值。即,若事件发生概率为p,则该事件的几率为,对数几率为。
则对于逻辑回归而言,
1.3. 模型参数估计
逻辑斯蒂回归模型训练时,对于给定的训练数据集,其中,,可以应用极大似然估计法估计模型参数,从而得到逻辑斯蒂回归模型。
设:
似然函数为:
对数似然函数为:
对求极大值,得到的估计值。
2. woe&iv介绍
风控模型—WOE与IV指标的深入理解应用 - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/80134853
2.1. woe(weight of evidence)
分箱后,每个箱体的woe值计算公式如下:
其中,,分别表示第i个箱体内坏样本、好样本个数,,分别表示全体样本中坏样本、好样本个数。
需要注意的是,当分箱内只有好人或坏人时,可对woe公式进行修正:
根据woe公式,可以将woe公式理解为每个分箱内坏人分布和好人分布的差异。对公式再进行变换:
此时,可以理解为每个分箱内坏坏好比和总体坏好比的差异。
2.2. iv(information value)
可以认为是woe的加权和,具体公式如下:
3. 利用逻辑回归模型制作评分卡
评分卡模型基于假设“历史样本和未来样本服从同一总体分布”,故而才能从历史样本中归纳出数理统计规律来预测未来样本的表现。利用逻辑回归模型制作评分卡的流程如下:
- step1. 从不同信道里获取了观测数据(Data),并从中提取了特征X。
- step2. 此时发现各渠道采集的信息并不在一个尺度上,无法融合。因此,我们通过WOE变换对信息进行处理,将其对标到统一尺度上。
- step3. LR模型对不同信息采用不同权重(weight)进行加权融合,并通过sigmoid函数映射为0~1的概率。
- step4. 基于LR模型的输出结果,人工进行决策,判定好人还是坏人。
更多可参考:
逻辑回归评分卡映射 (qq.com)https://mp.weixin.qq.com/s/CHW70SfP-0fBLu23NKI_cg逻辑回归评分卡实现和评估 - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/119332569