【模型迭代】拒绝推断(RI)

问:项目刚上线,贷后表现也有了,能不能开发评分卡?
问:一般评分卡开发这块怎么处理呢?就只针对准入审批通过的客群吗?
问:你们业务中,是直接用模型通过的样本去迭代模型吗?
问:拒绝推断有什么好方法吗?


  本文关键词:

  ① 冷启动 ② 选择偏差 ③ 模型失效 ④ 样本补齐 ⑤拒绝推断


  评分模型开发中,模型训练非常依赖样本的选择。负样本不足,预测效果不好;负样本太多,则可能过度学习,导致过拟合;部分特征的分布随业务或时间的变化而发生变化,也会导致模型训练的结果发生偏移。

  我们先来思考三个场景:

  场景一:冷启动: 在业务初期,通常由于各种原因,风控需要冷启动,如果没有之前留存的或者外部协助开发的评分模型,那么就很难通过量化评分的手段参与授信决策。这时,就需要多维度的策略规则去筛选初期用户,类似准入规则、反欺诈规则、风险名单、多头借贷、共债信息等。这个时候的审批策略,可能不一定行之有效,相当于随机选择接受的客户,那么接受样本和拒绝样本的分布所差无几,这种情况下,EDA探索分析后如无明显问题,首批有贷后表现的样本,是可以直接投入模型开发的。

  场景二:规则影响 在业务开展一段时间后,信贷审批流程便会逐步添加包括反欺诈识别、策略规则、PRE_A过滤、授信评分、人工审批等内容。随着数据共联的加强、数据维度的丰富、风控策略的完善,审批环节的前置策略和规则在整个授信体系的作用愈加明显。这个时候,通常为了开源节流,我们会以漏斗模型和决策树模型去设计信贷风险体系。那么强规则拒绝的客户,便不再需要通过评分模型的检测。这就导致通过模型的用户,已经经过了层层筛选,样本本身携带的强负样本信息,也经过了层层过滤,那么,假如这个时候开发评分卡,虽然模型所选的特征基本不与前置规则重叠,特征分布不会受到影响,但Label中的负样本占比,会大大降低。导致本应有的极差的那些坏客户的信息,没有在模型中出现。这就引出本文第二个问题:“一般评分卡开发这块怎么处理呢?就只针对准入审批通过的客群吗?”

  场景三:模型迭代 业务进行的很顺利,模型评分的作用越来越强,随着时间推移,模型效果会随之下降,就需要迭代模型,即重新选择样本,重新训练模型,重新设置评分区间,重新决策。因为只有模型审批通过的客户才会有贷后,才会有Label,所以,此刻在用这部分样本进行建模,受影响的不单单是负样本数量的占比、负样本信息的收集,整个模型的特征分布,也会发生很大的偏移。

  综上几个场景,我们发现:在做申请评分卡时,受业务阶段、授信流程、策略规则、通过率、样本迭代等的影响,如果建模仅基于具有已知性能的可接受总体,则申请评分卡具有自然发生的选择偏差。自然样本信息多多少少会有损失,机器学习模型效果偏移。因此,在每一次模型开发中,都需要检测样本的分布,必要的时候调整负样本占比,使其尽可能降低偏差,达到均衡的效果。特征分布合理,且无缺失,好坏样本信息得以完全学习,

  • 1
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值