如果建模仅基于具有已知性能的可接受总体,则申请评分卡具有自然发生的选择偏差。然而,由于他们未知的表现,从建模过程中排除了一大批被拒绝的客户。 为了解决选择偏差问题,申请评分卡模型应该包含两个人群。 这意味着需要推断拒绝的未知性能,这是使用拒绝推断(RI)方法完成的。
使用拒绝推断RI,在评分卡开发过程中还需要一些额外的步骤:
- 在接受方上构建逻辑回归模型 - 这是base_logit_model
- 使用拒绝推断技术推断拒绝
- 将接受和推断拒绝合并成一个数据集(complete_population)
- 在complete_population上构建一个新的逻辑回归模型 - 这是final_logit_model
- 验证final_logit_model
- 根据final_logit_model创建一个评分卡模型
图1.使用拒绝推断开发评分卡
拒绝推断是一种缺失值处理形式,其结果是“非随机性缺失”(MNAR),导致接受和拒绝人群之间存在显着差异。 有两种广泛的方法来推断缺失的表现:分配和增强,每种方法都有不同的技术。 两种方法中最流行的技术是比例分配,简单增强和模糊增强和parcelling。
图2.拒绝推断技术
比例分配是将拒绝对象随机划分为“好”和“差”的账户,其“坏”比率比公认的人群高两至五倍。
简单增强假定使用base_logit_model对拒绝进行评分,并根据截止值将其分为“好”和“坏”帐户。截止值被选择为使得拒绝者的不合格率比接受者中大2至5倍。
模糊增强假定使用base_logit_model对拒绝进行评分。每条记录都有效地复制,其中包含加权“坏”和加权“好”组件,二者均来自拒绝评分。这些权重,以及所有接受权重等于“1”的权重,将在final_logit_model中使用。建议的策略是拒收率比接受者高两到五倍。
Parcelling是一种包含简单增强和比例分配的混合方法。通过将使用base_logit_model生成的拒绝分数分箱成分数带中来创建parcel。比例分配适用于每个parcel,其“坏”比率是被接受人口的等值分数带中的“坏”率的两倍至五倍。
图3.比例分配
图4.简单增强
图5.模糊增强
图6. Parcelling