PSI的模拟计算——数据准备
数据来源
本次用于PSI模拟计算的数据来自于天池零基础入门金融风控-贷款违约预测使用其中的train.csv数据集,个字段的含义见原网页地址。
PSI指标的计算
有关PSI指标是如何计算的请见风控模型—群体稳定性指标(PSI)深入理解应用
数据处理思路
在理解了如何计算PSI指标后,那么对train.csv的处理可大致划分为用于训练模型的开发样本和用于计算PSI指标的月度进件数据。
划分思路
- 原始数据中给出了字段issueDate和term两个有关时间的字段那么就可据此计算出endDate=issueDate+term;
- 通过逻辑回归算法对数据进行建模就要求数据有标签并且要求数据量最好在5W左右,那么根据endDate统计出可将2016年之前的数据用于开发模型;
- 那么将issueDate在2016年之后的数据按月度进行划分即可计算模型每月的PSI值;
- 这么做必然会导致部分数据的缺失,例如一个样本的issueDate为2015-12但endDate在2018-12那么该样本就会被抛弃掉。
执行脚本(Python)
import pandas as pd
from datetime import datetime, timedelta
def splitDate(data):
# 计算结束日期
issueDate = pd.to_datetime(data['issueDate'])
endDate = []
for i in range(len