拒绝推断¶
学习目标
- 知道什么是拒绝推断
- 知道拒绝推断的常用方法
1. 拒绝推断简介
风控建模中,幸存者偏差是普遍存在的问题。也就是我们建模用到的数据无法充分反应所有客群的整体分布信息,从而得到错误的总体估计。
为什么会产生偏差
从前面的小结介绍的内容中可以发现一个问题——只根据放贷样本构建的风控模型。这种做法会会低估风险,从而影响额度策略、风险定价、信贷审批等各个环节。
- 风控业务多个环节都会涉及样本被拒绝或客户流失等问题
- 由于被拒绝或流失客户并没有参与模型训练,我们无法获取的有效贷后信息
- 其中,被拒绝的样本是模型预测分数较低的人群。缺少该部分低分人群的信息,对全局样本表示模型的影响非常大。当模型经过多次迭代后,其重要特征可能被逐渐弱化,因此需要使用相应手段进行处理
拒绝推断(Reject Inference)是一种对拒绝用户进行推理归纳,从而得到该部分样本标签分布的方法。常见的拒绝推断方法分为三种:
- 数据验证
- 基于业务经验
- 数据推断
2. 数据验证
数据验证,又称为下探,即从拒绝样本中选取部分样本进行放款。以获得该部分样本的真实标签,从而带入评分卡模型进行监督学习。
数据验证是最有效且实施起来非常简单的一种拒绝推断方法
- 将当前模型打分低于通过阈值的客群,按照预测分值排序后等频划分为10箱
- 从中分别抽取部分拒绝样本进行放款实验
数据验证的缺点:
- 数据验证需要一定周期才能得到结果
- 拒绝样本中的负样本占比明显高于通过样本,因此该验证方法会对平台造成一定程度上的收益损失
获取该部分样本的信息,对未来模型的表现有极大帮助。因此需要在短期收益与长期风险控制中选择一
3. 基于业务经验
利用当前产品的拒绝原因、平台其他产品线的贷后表现,或其余机构的标注信息定义拒绝样本的伪标签
- 将征信数据标记为黑的样本定义为负样本
- 将信审人员审批结果作为真实负标签使用
- 利用其历史表现判断该用户是否为负样本
此方法缺点:
- 不同平台对于标签的定义有差异,因此外部数据在很多情况下无法直接用于拒绝样本的伪标签定义
- 外部数据获取的成本较高
4. 数据推断
通过数据分析方法修正模型的参数估计偏差。拒绝推断的主要意义是希望修正建模样本和实际全量样本之间的差异,本质上是为了降低模型参数估计的偏差。
拒绝推断场景下有如下三个概念 已知好坏标签(Know Good Bad,KGB)
- 准入模型允许通过的样本集&#