【杂记】一个简单的用户信用风险评分模型（Scorecard）项目

LZXCyrus

已于 2024-01-19 17:19:47 修改

阅读量1.2k

点赞数 29

分类专栏：杂记文章标签：金融 python

于 2024-01-18 14:59:20 首次发布

本文链接：https://blog.csdn.net/m0_65814643/article/details/135672386

版权

杂记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

写在前面
1. 背景及需要解决的问题
2. 数据探索性分析及预处理
3. 变量选择
- 3.1 变量重要性分析
- 3.2 共线性分析
4. 模型建立：基于WOE的逻辑回归模型
- 4.1 变量的WOE编码
- 4.2 建立逻辑回归模型
5. 模型求解：基于逻辑回归模型建立评分卡
6. 结果评估
7. 与其他模型的效果比较

写在前面

整理的几年前的简单课程作业报告，整体思路很简单、很学生化，实际应用价值不大，主要是作记录和思路整理用。

1. 背景及需要解决的问题

随着中国的网络借贷市场的迅速扩大，用户申请手机分期越来越多。手机贷以采集互联网大数据作为主要征信源，进行有效的数据清洗、分析建模、个人信用评分，并与传统金融授信逻辑相结合，实现包含借贷交易的互联网金融平台。本报告将构建基于原始数据以及基于 WOE的逻辑回归模型，建立评分卡，通过2000 名用户申请手机分期的数据集，预测用户逾期未还款的概率，预估用户违约的信用风险。同时与其他分类模型进行分类效果比较，由此为是否给用户发放手机贷款的决策提供参考和建议。

2. 数据探索性分析及预处理

数据集总体分析（正负样本比、样本范围、观察窗口选择）
变量相关性分析（Pearson 相关系数、Spearman相关系数等）
数据集缺失值分析（多种方式替换缺失值）

3. 变量选择

考虑到实际中应用的评分卡模型一般有8至14个变量，因此在模型的变量选择中，将最多选择的变量个数限制在14。

变量的形态可以分为连续变量和分类变量，首先要进行单因子分析，单因子分析主要是为了检测变量对好坏的区分能力。接下来要做挑选出的变量的共线性分析，以保证模型变量的可靠性。

3.1 变量重要性分析

由于采用信用评分卡模型，对变量的重要性的量化分析，主要采用 WOE 值和IV 值进行变量显著性的评价。第二，为确保选取变量的有效性，同时使用了基于变量特征重要性的变量筛选方法，即使用XGBoost与Lightgbm来辅助综合评估变量的重要性。由于IV值的计算是以WOE值为基础的，所以计算IV值之前，首先计算 WOE值（代码：woe.py）。利用决策树获得最优分箱的边界值列表，然后求解每个变量的WOE值，再求解IV值，最终得到了IV值最高的14个指标。

IV值前14的变量有13个都是连续变量。为增强模型的可解释性与合理性，本文挑选了IV值前3的类别型变量加入候选数据。

接下来，继续使用 XGBoost 来辅助提取变量重要性，使用梯度提升算法的好处是在提升树被创建后，可以相对直接地得到每个属性的重要性得分。最终是将一个属性在所有提升树中的结果进行加权求和后然后平均，得到重要性得分。一个属性越多的被用来在模型中构建决策树，它的重要性就相对越高。

可以得到，由XGBoost选出的最重要的8个变量，其中有4个在IV值筛选出的变量中也出现了。最后使用Lightgbm模型进行辅助提取变量重要性。

在这里插入图片描述

此时仅有7个连续型变量在三种方法中至少出现两次，考虑到模型的合理性，加入之前预留的类别型变量中IV值最高的IS_ATTACH。主要依据IV值判断，综合三种方法考虑，最终选择连续型变量7个，类别型变量1个，共计8个变量作为 X 放入模型：

最终选择的变量
月息费
偿债比
LOAN_AMT
MTH_REPAY_AMT
MULTIPLE_LOAN_7D
IS_ATTACH
unionpayinfo_faile_code_51
bairongmultiapplyinfo_al_m12_id_notbank_orgnu

3.2 共线性分析

接下来进行共线性分析（代码：iv.py）。使用方差膨胀系数VIF来进行变量的多重共线性分析。全部变量中 VIF>100 的变量，即存在多重共线性严重的变量占比达到了70%以上，数据集的共线性较为严重。但筛选后的的八个变量的多重共线性大幅降低，可以接受。

4. 模型建立：基于WOE的逻辑回归模型

4.1 变量的WOE编码

要对一个变量进行 WOE 编码，需要首先把这个变量进行分箱处理。对此，采用的是 ChiMerge 算法进行分箱，依赖于卡方检验，具有最小卡方值的相邻区间合并在一起。预先设定一个卡方的阈值，在阈值之下的区间都合并，阈值之上的区间保持分区间，直到满足停止准则。由于评分卡每个变量的取值一般被分为 2 至 6 个区间，因此最大区间数选择为 6，最小区间数选择为 2。

再根据 8 个变量的分箱，分别计算每个分箱的 WOE 值，每个分箱 WOE 的正负，由当前分箱响应和未响应的比例，与样本整体响应和未响应的比例的大小关系决定，当前分箱的比例小于样本整体比例时，WOE 为负，当前分箱的比例大于整体比例时，WOE 为正。