风控业务背景
经过漫长的离线模型设计开发旅程,我们终于迎来了最终的上线部署环节。这同样是一个需要你细心的步骤,也是一个值得规范化的流程。那么这个流程到底是怎样的?
本文主要介绍模型部署(离线+在线)技术方案,以及线上线下一致性比对的注意事项。目录
Part 1. 风控模型部署框架
Part 2. 统一数据源建设
Part 3. 变量一致性比对
Part 4. 模型一致性比对
Part 5. Python部署上线
Part 6. PMML部署上线
Part 7. 总结
致谢
版权声明
参考资料
Part 1. 风控模型部署框架
在《风控模型开发流程标准化》中,我们系统介绍了模型开发流程。但是,真实工作中绝非只是按此流程开发一个模型而已,我们需要和上下游的同学沟通对接。模型同学:根据业务需求,基于离线数据构建风控模型,并负责模型部署、监控、维护等。
策略同学:根据离线预测的模型分数,制订相应的风控策略方案,配置策略包等。
开发同学:支持底层数据源接入、问题排查、上线部署、平台搭建等工作。
通常情况下,风控模型一旦正式上线运行后,将会保持运行至少半年以上。这就要求我们把模型的稳定性、可控性放在第一位。
真实线上环境存在着各种扰动,如数据源API接口调用失败、入模变量被误操作覆盖、客群变化等等,这些因素都会导致风控系统(模型)发生异常,偏移预期而失去控制。这会引起决策失误,最终导致巨大的经济损失。
为了保证第一时间发现线上问题,我们一般会采取各种监控手段。在上线部署过程中,我们主要关注一致性监控,着眼于三个维度:数据层:实时数据与离线数据的字段名、格式、取值等一致。
变量层:在线变量与离线变量的字段名、逻辑、取值等一致。
分数层:模型线上分数与线下分数取值保持一致。图 1 - 风控模型部署框架
模型离线部署通常采取以下步骤:数据准备:生成入模特征变量宽表,以及数据预处理,包括缺失值填充、变量名映射、类型转换等。
模型载入:读取模型pkl文件,载入模型至内存。
打分预测:梳理业务逻辑流程,输入特征变量,对全量申请订单T+1批量预测打分。
一致比对:与建模所用的放贷订单上的预测分数对比&#x