范涛
发表于2017-03-31
第四章:Scorecard Development Process, Stage 2: Data Review and Project Parameters
一: data avaliablity and quality
数据获取,数量和质量,可靠和干净的数据是需要的。数据数量需要满足多样性,统计显著和随机。具体数量大小,目前不是关键,依赖坏样本定义。对于申请评分卡(application scorecard),俗称A卡,需要包含拒绝的样本。通过拒绝推断(reject inference)技术去推断拒绝样本中好样本和坏样本。数据源的获取:内部数据和外部数据, 高质量内部数据需要处理,外部数据需要评估,量化和定义。重要一点是,个人建议: 数据源稳定性要监控,模型开发要考虑到源数据延时和缺失的情况。
二: Data Gathering for Definition of Project Parameters
对于申请评分卡来说,需要收集之前2到5年的样本数据,或者大量足够的样本。相关字段(包括但不局限):(1)身份id; (2)申请日期; (3)账号拖欠和索赔历史数据; (4)接受/拒绝 标记; (5)产品/通道,或者其他标识符; (6)当前账号状态(e.g., 不活跃,关闭,丢失,被盗,欺诈等)
对于行为评分卡(behavior scorecard)来说,俗称B卡,账户选择是在一个时间点上,对他们的行为分析,通常以6到12个月为周期。
3.1 Exclusions评分卡模型有时候需要过滤掉一些特定账号样本。开发涉及的账号样本是应该是应用到潜在用户,日常贷款针对的人群。对一些异常表现群体,如欺诈群体。还有员工,vip,国外,盗卡,未成年这些群体,是不能加入开发模型,需要采用一些特殊规则进行处理。对于一些金融公司如果之前客户涉及比较多,比如一家汽车贷款公司,之前贷款业务包括个人汽车业务,驾驶技术业务等,如果现在业务聚焦到个人汽车贷款业务,那他评分卡开发涉及的样本则需要改变,只能包含个人汽车贷款用户样本。对于exclusion的另外一个理解,这些exclusions可以看成一种sample bias 案例。比如你开发评分卡模型只针对城市人口,那你开发样本中则不能包含任何非城市人口。总体来说,如果一个群体或者申请类型,在未来应用上是不会被评分的,那这些样本是不应该加入模型开发中的。
3.2 Performance and Sample Windows and “Bad” Definition ( 表现窗口,样本窗