前两天大概读了一下《智能风控实践指南—从模型、特征到决策》这本书,说实话,书的内容超出了我原有的预期,还是有不少对我有所启发的地方。我还去看了作者蒋宏老师的视频号,其中他提到自己最早是做咨询,所以一直有知识管理的习惯,这些从这本书的内容也可以看出来。理论结合了实践,把自己工作中的经验沉淀下来,这是非常有意义和成就感的一件事。这篇文章先记录一些书中有所启发的地方,后续还会展开写一两篇具体的思考。
一、模型开发中的样本粒度
有渠道粒度、客户粒度、借款粒度、还款粒度。在实际业务中需要根据业务模式和模型应用策略来选择合适的粒度进行建模。比如一次性借款产品,申请模型选择借款粒度;循环额度产品选择客户粒度;催收评分选择还款粒度。
这个问题可以看下知乎求是汪在路上:贷中行为评分卡(B卡)模型的评论区。
二、标签定义
表现期定为近 6期是否发生30天以上逾期的情况下,对于超过6个月表现期且逾期发生在6个月之后的样本,也可以纳入建模样本中,属于“软表现窗口”。对于坏样本量较少的情况,可以选择不同的逾期状态,尽可能多覆盖坏样本。
三、特征选择中的稳定性
除了PSI之外,还要看各分箱坏账的稳定性。书中定义为“倒箱”,体现了特征对预测变量区分能力的稳定性,而PSI反映的是特征分布的稳定性。这个简单地说,就是分箱在分月的坏账不要交叉,开口越大越好。
四、损失函数、