《Credit Risk Scorecard》第五章: Development Database Creation

 

第五章:Scorecard Development Process, Stage 3: Development Database Creation

Selection of Characteristics
 特征选择需要考虑:(1)有预测能力; (2)可靠并且鲁棒性; (3)易于收集; (4)可解释性; 

Sampling
Development/Validation: 样本划分为训练集和测试集。这种常用的方法,交叉验证,跨时间窗验证等。
Good/Bad/Reject:
      常见的开发样本采样方式:()oversamling (过采样),这种需要事后进行模型调整; (2)按比率采样,开发样本分布和真实样本分布保持一致。


Development Data Collection  and Construction
Random and Representative: 样本选择必须是随机的,代表开发的评分卡应用的对象(需要排除特定类型的样本)。样本倾斜某些群体会造成弱化其他群体的预测能力。
Nonsegmented Dataset:划分不同场景开发评分卡,所有需要对不同场景构造相对独立的切分样本集。同时,也需要保留一份没划分的样本。这样的做的目的,是方便统计划分场景的评分卡对不划分场景的评分卡模型带来的提升效果有多大。
Data Quirks:当收集数据的时候,需要了解数据库相关数据变更历史,尤其样本窗口前后。这里面可能设计点字段值定义的改变,字段名的改变等。

Adjusting for Prior Probabilities (预测概率调整)
实际开发样本是经过一定过采样后的,这样开发样本好坏样本分布和真实样本中好坏分布是不一致的。针对这样情况,需要模型做一定的处理,来还原真实的分布情况。当然,有些情况是不需要调整的,比如如果你只关心评分相对排序(关心分数具体值),或者自变量和目标值关系。
一般信用评分模型中是需要做特殊处理的,因为信用评分模型是用来做真实决策,设定阈值,考察评分和坏样本率具体真实对应关系。
假设一个开发样本集,有2000好样本,2000坏样本,2000拒绝样本组成,那开发样本,申请通过率为67%,坏样本率为50%。但是真实的样本分布情况,如下图所示,其中申请通过率为70.5%, 坏样本率为12.4%。

常见的调整方法:(1)偏置调整(offset); (2)样本权重调整(sample weight)

Offset Method:
偏置调整,一般可以在模型预测概率后进行调整,下面是调整公式。


Sampling Weights:
样本加权,对样本进行加权后再进行训练。下面提到不同类别的样本权重。


具体采用偏置调整方法,还是样本加权方法? 如果是lr模型,优先选择偏置调整方法,如果是一些非线性模型,加权方法更合适。同时,如果是基于非分组变量开发,那偏置调整方法更好;如果基于分组变量,点分卡开发,加权方法更好,因为他不仅修正预测概率,同时更正了参数估计,进而使派生出的特征评分更合理。
 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI周红伟

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值