申请评分卡的构建_card=scorecard(combiner=combiner,transer=t,c=0.1,-CSDN博客

本文链接：https://blog.csdn.net/WWWWW521321/article/details/118442628

主要流程：
（1）探索性数据分析；
（2）通过IV、PSI等指标以及逐步回归对入模变量进行筛选，并结合业务经验对剔除变量进行剔除原因分析；
（3）基于Logistic算法进行建模，利用Xgboost算法建模进行模型效果比较，正向和逆向调用模型检验样本分布；
（4）观察指标评估模型效果；
（5）合并数据，重新训练模型，生成评分卡。

一、业务背景
基于申请客户的各项信息，对其违约概率进行预测。

二、数据介绍
数据维度概况
除了uid唯一标识，共12个维度，95806行。
数据12个维度介绍：
bad_ind:好坏标签，1代表bad,0代表good
person_info：用户相关的信息，身份特质
finance_info:财务相关的信息，履约能力
credit_info:信用相关的信息，信用历史
act_info：行为信息，行为偏好
score结尾：其他信用机构的评分

身份特质: 稳定性,所在公司，职业类型，消费稳定度，近一年内使用手机号码数，手机号码稳定天数，地址稳定天数。

履约能力：是否有车，是否有房，近一个月流动资产日均值，近三个月流动资产日均值，近六个月流动资产日均值，近一年流动资产日均值，近一个月理财产品总收益，近三个月理财产品总收益，近六个月理财产品总收益，近一年理财产品总收益，历史理财产品总收益，近一个月支付总金额，近三个月支付总金额，近六个月支付总金额，近一个月消费总金额，近三个月消费总金额，近六个月消费总金额。

信用历史：近一个月主动查询金融机构次数，近三个月主动查询金融机构数，近六个月主动查询金融机构数，近一个月信贷类还款总金额，近三个月信贷类还款总金额，近六个月信贷类还款总金额，近一年信贷类还款总金额，近一年信贷类还款月份数，近一年M1状态，近一年M3状态，近一年M6状态，近两年M1状态，近两年M3状态，近两年M6状态，近五年M1状态，近五年M3状态，近五年M6状态。

行为偏好：消费区域个数，近一年支付活跃场景数，近一年母婴消费总金额，近一年母婴消费总笔数，近一年游戏消费总金额，近一年游戏消费总笔数，近三个月家居建材消费总金额，进三个月家具建材消费总笔数，近一年汽车消费总金额，近一年汽车消费总笔数，近一年航旅度假消费总金额，近一年航旅度假消费总笔数。

三、建模过程
（1）导入库，加载数据

import pandas as pd  
from sklearn.metrics import roc_auc_score,roc_curve,auc  
from sklearn.model_selection import train_test_split  
from sklearn.linear_model import LogisticRegression   
import numpy as np  
import math  
import xgboost as xgb  
import toad  
# 加载数据
data_all = pd.read_csv("scorecard.txt")

（2）观察数据

在这里插入图片描述
数据集已经提前划分好了并打上标签，dev代表开发样本，val代表验证样本，off代表时间外样本，这里的开发样本和验证样本是使用分层抽样进行划分的，主要是为了保证两个数据集中的bad样本占比相同，而时间外样本则是选取最近一个月的数据集。
这里数据集划分为三类的原因主要在于信贷场景的特殊性，预测模型的本质是基于历史数据预测未来，因而在检验模型的效能时，应该用最接近模型应用时间点，最接近实际的样本，以检验模型的跨时间稳定性。

好坏客户分布情况
在这里插入图片描述
（3）指定初步入模变量，划分数据集

# 指定不参与训练列名  
ex_lis = ['uid',