PSI的模拟计算——01数据准备

数据来源

本次用于PSI模拟计算的数据来自于天池零基础入门金融风控-贷款违约预测使用其中的train.csv数据集,个字段的含义见原网页地址。

PSI指标的计算

有关PSI指标是如何计算的请见风控模型—群体稳定性指标(PSI)深入理解应用

数据处理思路

在理解了如何计算PSI指标后,那么对train.csv的处理可大致划分为用于训练模型的开发样本和用于计算PSI指标的月度进件数据。

划分思路

  1. 原始数据中给出了字段issueDate和term两个有关时间的字段那么就可据此计算出endDate=issueDate+term;
  2. 通过逻辑回归算法对数据进行建模就要求数据有标签并且要求数据量最好在5W左右,那么根据endDate统计出可将2016年之前的数据用于开发模型;
  3. 那么将issueDate在2016年之后的数据按月度进行划分即可计算模型每月的PSI值;
  4. 这么做必然会导致部分数据的缺失,例如一个样本的issueDate为2015-12但endDate在2018-12那么该样本就会被抛弃掉。

执行脚本(Python)

import pandas as pd
from datetime import datetime, timedelta

def splitDate(data):
    # 计算结束日期
    issueDate = pd.to_datetime(data['issueDate'])
    endDate = []
    for i in range(len
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值