《Credit Risk Scorecard》第四章：Data Review and Project Parameters

最新推荐文章于 2024-01-21 19:26:06 发布

范涛

最新推荐文章于 2024-01-21 19:26:06 发布

阅读量3.0k

点赞数 2

分类专栏：风控机器学习

本文链接：https://blog.csdn.net/hero_fantao/article/details/68926495

版权

本文分析了当前与最糟糕的违约比较，指出这与滚动率分析相仿但操作更为简便。通过对比账户的历史最恶劣违约状态与最近违约状态，发现历史30天内违约的账户中有84%在最近未出现违约，而90天历史违约账户中约60%仍维持90天或更长时间的违约状态。这一方法旨在确定违约账户转化为坏账的平均时间。

摘要由CSDN通过智能技术生成

范涛

发表于2017-03-31

第四章：Scorecard Development Process, Stage 2: Data Review and Project Parameters

一： data avaliablity and quality

数据获取，数量和质量，可靠和干净的数据是需要的。

数据数量需要满足多样性，统计显著和随机。

具体数量大小，目前不是关键，依赖坏样本定义。

对于申请评分卡（application scorecard），俗称A卡，需要包含拒绝的样本。通过拒绝推断（reject inference）技术去推断拒绝样本中好样本和坏样本。

数据源的获取：内部数据和外部数据，高质量内部数据需要处理，外部数据需要评估，量化和定义。重要一点是，个人建议：数据源稳定性要监控，模型开发要考虑到源数据延时和缺失的情况。

二： Data Gathering for Definition of Project Parameters

对于申请评分卡来说，需要收集之前2到5年的样本数据，或者大量足够的样本。相关字段（包括但不局限）：

（1）身份id；（2）申请日期；（3）账号拖欠和索赔历史数据；（4）接受/拒绝标记；（5）产品/通道，或者其他标识符；（6）当前账号状态（e.g., 不活跃，关闭，丢失，被盗，欺诈等）

对于行为评分卡（behavior scorecard）来说，俗称B卡，账户选择是在一个时间点上，对他们的行为分析，通常以6到12个月为周期。

三: Definition of Project Parameters

3.1 Exclusions

评分卡模型有时候需要过滤掉一些特定账号样本。开发涉及的账号样本是应该是应用到潜在用户，日常贷款针对的人群。对一些异常表现群体，如欺诈群体。还有员工，vip，国外，盗卡，未成年这些群体，是不能加入开发模型，需要采用一些特殊规则进行处理。

对于一些金融公司如果之前客户涉及比较多，比如一家汽车贷款公司，之前贷款业务包括个人汽车业务，驾驶技术业务等，如果现在业务聚焦到个人汽车贷款业务，那他评分卡开发涉及的样本则需要改变，只能包含个人汽车贷款用户样本。

对于exclusion的另外一个理解，这些exclusions可以看成一种sample bias 案例。比如你开发评分卡模型只针对城市人口，那你开发样本中则不能包含任何非城市人口。总体来说，如果一个群体或者申请类型，在未来应用上是不会被评分的，那这些样本是不应该加入模型开发中的。

3.2 Performance and Sample Windows and “Bad” Definition （表现窗口，样本窗