申请评分卡的构建

主要流程:
(1)探索性数据分析;
(2)通过IV、PSI等指标以及逐步回归对入模变量进行筛选,并结合业务经验对剔除变量进行剔除原因分析;
(3)基于Logistic算法进行建模,利用Xgboost算法建模进行模型效果比较,正向和逆向调用模型检验样本分布;
(4)观察指标评估模型效果;
(5)合并数据,重新训练模型,生成评分卡。

一、业务背景
基于申请客户的各项信息,对其违约概率进行预测。

二、数据介绍
数据维度概况
除了uid唯一标识,共12个维度,95806行。
数据12个维度介绍:
bad_ind:好坏标签,1代表bad,0代表good
person_info:用户相关的信息,身份特质
finance_info:财务相关的信息,履约能力
credit_info:信用相关的信息,信用历史
act_info:行为信息,行为偏好
score结尾:其他信用机构的评分

身份特质: 稳定性,所在公司,职业类型,消费稳定度,近一年内使用手机号码数,手机号码稳定天数,地址稳定天数。

履约能力:是否有车,是否有房,近一个月流动资产日均值,近三个月流动资产日均值,近六个月流动资产日均值,近一年流动资产日均值,近一个月理财产品总收益,近三个月理财产品总收益,近六个月理财产品总收益,近一年理财产品总收益,历史理财产品总收益,近一个月支付总金额,近三个月支付总金额,近六个月支付总金额,近一个月消费总金额,近三个月消费总金额,近六个月消费总金额。

信用历史:近一个月主动查询金融机构次数,近三个月主动查询金融机构数,近六个月主动查询金融机构数,近一个月信贷类还款总金额,近三个月信贷类还款总金额,近六个月信贷类还款总金额,近一年信贷类还款总金额,近一年信贷类还款月份数,近一年M1状态,近一年M3状态,近一年M6状态,近两年M1状态,近两年M3状态,近两年M6状态,近五年M1状态,近五年M3状态,近五年M6状态。

行为偏好:消费区域个数,近一年支付活跃场景数,近一年母婴消费总金额,近一年母婴消费总笔数,近一年游戏消费总金额,近一年游戏消费总笔数,近三个月家居建材消费总金额,进三个月家具建材消费总笔数,近一年汽车消费总金额,近一年汽车消费总笔数,近一年航旅度假消费总金额,近一年航旅度假消费总笔数。

三、建模过程
(1)导入库,加载数据

import pandas as pd  
from sklearn.metrics import roc_auc_score,roc_curve,auc  
from sklearn.model_selection import train_test_split  
from sklearn.linear_model import LogisticRegression   
import numpy as np  
import math  
import xgboost as xgb  
import toad  
# 加载数据
data_all = pd.read_csv("scorecard.txt")  

(2)观察数据

在这里插入图片描述
数据集已经提前划分好了并打上标签,dev代表开发样本,val代表验证样本,off代表时间外样本,这里的开发样本和验证样本是使用分层抽样进行划分的,主要是为了保证两个数据集中的bad样本占比相同,而时间外样本则是选取最近一个月的数据集。
这里数据集划分为三类的原因主要在于信贷场景的特殊性,预测模型的本质是基于历史数据预测未来,因而在检验模型的效能时,应该用最接近模型应用时间点,最接近实际的样本,以检验模型的跨时间稳定性。

好坏客户分布情况
在这里插入图片描述
(3)指定初步入模变量,划分数据集

# 指定不参与训练列名  
ex_lis = ['uid', 
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值