模型开发SOP及各环节的作用

模型开发SOP是标准化建模流程,包括立项需求、数据回溯、模型开发、离线生产、线上生产和模型监控。关键环节涉及数据准备、特征工程、模型选择与训练、评估与优化。模型开发旨在提高效率,确保模型准确性和稳定性,应用于风控、信用评估等场景。
摘要由CSDN通过智能技术生成

模型开发SOP是什么

模型开发sop即指“模型开发标准操作程序”,将开发过程统一为标准操作步骤和要求,用来指导和规范日常的工作。

业务有什么样的需求,模型就要做针对性的设计。然而,开发一个好的模型并不是一件轻而易举的事情。所以要确保各个环节合理有效,才能完成整个项目的交付。关键要点包括模型定位的合理性、数据质量的可靠性、建模方法的适用性、模型输出的准确性,以及模型表现的稳定性。

关注“金科应用研院”,回复“CSDN”
领取“风控资料合集”

模型开发SOP的重要作用

(1)可以流程化可重复工作,提高建模效率

(2)便于连接上下游部门,提高沟通效率

模型开发的6个环节

1、立项需求

需求由业务方或策略方发起,确定需求模型开发方的原因和使用场景。

比如,信用风险模型主要是为了评估用户还款能力和还款意愿;反欺诈反作弊模型防止用户骗贷、薅羊毛和保证平台安全等功能;资本计量模型主要适用于 Basel 体系确定最低资本要求和进行压力测试。

2、数据回溯

数据是模型开发的要素,该环节一定要与需求方确认样本和数据源后,判断是否需要回溯、回溯的数据量以及预计成本(需要接入哪些第三方数据)。

数据一般分为内部数据与外部数据。内部数据是企业内部搜集存储的客户信息,例如商户在平台的销售、贷款、运营信息,客户的登陆、注册、消费信息等;外部数据一般为第三方数据,例如人行征信报告、运营商数据、第三方机构提供的多头借贷数据等。

模型开发文档中需明确列出所用到的数据来源和特征列表,并且需要多方确认数据可用,包括持续稳定和监管许可等。

3、模型开发

是建模工作的主要过程,包括宽表准备(基础数据)、数据清洗、特征筛选、模型选择、模型训练和模型评估。

1.宽表准备:

这部分的主要工作内容是确定建模样本,并提取相关数据,数据一定要是结构化的,如果不是结构化的则必须要能转换成结构化数据,有了结构逻辑才能被程序计算处理。

一般而言,对于类别型特征变量,常见的处理方法有:

自然数编码/序列编码(Ordinal Encoding)

序号编码(Label Encoding)

均值编码

WOE转换等方法

2.数据清洗:

数据清洗主要是对已准备好的数据做处理,比如某列数值型数据中包含字符串型数据,存在重复的数据等一系列不合理的情况。

3.特征待选:

从原始数据中筛选出对预测变量有较大权重的特征,重点训练。

常见的特征选择方法:

(1)Filter方法(过滤式)

Chi-squared test(卡方检验)

Information gain(信息增益)

Correlation coefficient scores(相关系数)

(2)Wrapper方法(包裹式)

递归特征消除算法

(3)Embedded方法(嵌入式)

简单易学的机器学习算法–岭回归(Ridge Regression)

4.模型选择:

据一组不同复杂度的模型表现,即从某个模型空间中挑选最好的模型。

一般而言模型选择准则有如下几种:

重复抽样与预测稳定性角度:CV、GCV、Boostrap

似然与模型复杂度角度:AIC、AICc、BIC、EBIC

VC维与风险上界控制角度:SRM

5.模型训练:

训练模型就是用已有的数据,通过一些方法(最优化或者其他方法)确定函数的参数,参数确定后的函数就是训练的结果,使用模型就是把新的数据代入函数求值。

简单来说就是:我打一个游戏,开局要选职业,不同的职业装备不同,法师是法杖配魂器,战士是长剑配盾牌,射手是长弓配箭矢,我选择一个职业,这就叫选择模型。

不同的武器有不同的属性,法杖有法力值,魂器有召唤力,长剑有攻击力,盾牌有防御值,长弓有韧性,箭矢有射速和重量,这些都叫做模型的参数。

游戏开始了,我不断的打怪,加点,调整属性点的分配方案,这叫做训练一个模型。最终通过不断地尝试各种点数分配方案,我找到了一个最佳方案,打怪再也不用师傅带了,这模型就算训练好了。

6.模型评估:

模型开发过程不可或缺的一部分。它有助于发现表达数据的最佳模型和所选模型将来工作的性能如何。

模型评估的常见的五个⽅法:

混淆矩阵

提升图&洛伦兹图

基尼系数

ks曲线

roc曲线

4、离线生产

通过模型评审后,配置好模型的离线生产,包括历史分区的回刷和每日的例行生产。

5、线上生产

完成模型的离线生产后,进行模型的线上部署包括生产的配置、测试以及空跑校验。

6、模型监控

完成模型的离线生产和线上生产后,对模型进行各维度的监控,确定是否迭代,形成模型工作闭环。

以上内容参考:FAL的量化风险建模师-认证班

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值