模型开发SOP及各环节的作用

最新推荐文章于 2022-08-11 14:35:58 发布

金科应用研院

最新推荐文章于 2022-08-11 14:35:58 发布

阅读量975

点赞数

分类专栏：大数据与建模文章标签：算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/BiAnTi/article/details/125674616

版权

大数据与建模专栏收录该内容

12 篇文章 4 订阅

订阅专栏

模型开发SOP是标准化建模流程，包括立项需求、数据回溯、模型开发、离线生产、线上生产和模型监控。关键环节涉及数据准备、特征工程、模型选择与训练、评估与优化。模型开发旨在提高效率，确保模型准确性和稳定性，应用于风控、信用评估等场景。

摘要由CSDN通过智能技术生成

模型开发SOP是什么

模型开发sop即指“模型开发标准操作程序”，将开发过程统一为标准操作步骤和要求，用来指导和规范日常的工作。

业务有什么样的需求，模型就要做针对性的设计。然而，开发一个好的模型并不是一件轻而易举的事情。所以要确保各个环节合理有效，才能完成整个项目的交付。关键要点包括模型定位的合理性、数据质量的可靠性、建模方法的适用性、模型输出的准确性，以及模型表现的稳定性。

关注“金科应用研院”，回复“CSDN”
领取“风控资料合集”

模型开发SOP的重要作用

（1）可以流程化可重复工作，提高建模效率

（2）便于连接上下游部门，提高沟通效率

模型开发的6个环节

1、立项需求

需求由业务方或策略方发起，确定需求模型开发方的原因和使用场景。

比如，信用风险模型主要是为了评估用户还款能力和还款意愿；反欺诈反作弊模型防止用户骗贷、薅羊毛和保证平台安全等功能；资本计量模型主要适用于 Basel 体系确定最低资本要求和进行压力测试。

2、数据回溯

数据是模型开发的要素，该环节一定要与需求方确认样本和数据源后，判断是否需要回溯、回溯的数据量以及预计成本（需要接入哪些第三方数据）。

数据一般分为内部数据与外部数据。内部数据是企业内部搜集存储的客户信息，例如商户在平台的销售、贷款、运营信息，客户的登陆、注册、消费信息等；外部数据一般为第三方数据，例如人行征信报告、运营商数据、第三方机构提供的多头借贷数据等。

模型开发文档中需明确列出所用到的数据来源和特征列表，并且需要多方确认数据可用，包括持续稳定和监管许可等。

3、模型开发

是建模工作的主要过程，包括宽表准备（基础数据）、数据清洗、特征筛选、模型选择、模型训练和模型评估。

1.宽表准备：

这部分的主要工作内容是确定建模样本，并提取相关数据，数据一定要是结构化的，如果不是结构化的则必须要能转换成结构化数据，有了结构逻辑才能被程序计算处理。

一般而言，对于类别型特征变量，常见的处理方法有：

自然数编码/序列编码（Ordinal Encoding）

序号编码(Label Encoding)

均值编码

WOE转换等方法

2.数据清洗：

数据清洗主要是对已准备好的数据做处理，比如某列数值型数据中包含字符串型数据，存在重复的数据等一系列不合理的情况。

3.特征待选：

从原始数据中筛选出对预测变量有较大权重的特征，重点训练。

常见的特征选择方法：

（1）Filter方法（过滤式）

Chi-squared test（卡方检验）

Information gain（信息增益）

Correlation coefficient scores（相关系数）

（2）Wrapper方法（包裹式）

递归特征消除算法

（3）Embedded方法（嵌入式）

简单易学的机器学习算法–岭回归（Ridge Regression）

4.模型选择：

据一组不同复杂度的模型表现，即从某个模型空间中挑选最好的模型。

一般而言模型选择准则有如下几种：

重复抽样与预测稳定性角度：CV、GCV、Boostrap

似然与模型复杂度角度：AIC、AICc、BIC、EBIC

VC维与风险上界控制角度：SRM

5.模型训练：

训练模型就是用已有的数据,通过一些方法(最优化或者其他方法)确定函数的参数,参数确定后的函数就是训练的结果,使用模型就是把新的数据代入函数求值。

简单来说就是：我打一个游戏，开局要选职业，不同的职业装备不同，法师是法杖配魂器，战士是长剑配盾牌，射手是长弓配箭矢，我选择一个职业，这就叫选择模型。

不同的武器有不同的属性，法杖有法力值，魂器有召唤力，长剑有攻击力，盾牌有防御值，长弓有韧性，箭矢有射速和重量，这些都叫做模型的参数。

游戏开始了，我不断的打怪，加点，调整属性点的分配方案，这叫做训练一个模型。最终通过不断地尝试各种点数分配方案，我找到了一个最佳方案，打怪再也不用师傅带了，这模型就算训练好了。

6.模型评估：

模型开发过程不可或缺的一部分。它有助于发现表达数据的最佳模型和所选模型将来工作的性能如何。

模型评估的常见的五个⽅法：

混淆矩阵

提升图&洛伦兹图

基尼系数

ks曲线

roc曲线

4、离线生产

通过模型评审后，配置好模型的离线生产，包括历史分区的回刷和每日的例行生产。

5、线上生产

完成模型的离线生产后，进行模型的线上部署包括生产的配置、测试以及空跑校验。

6、模型监控

完成模型的离线生产和线上生产后，对模型进行各维度的监控，确定是否迭代，形成模型工作闭环。

以上内容参考：FAL的量化风险建模师-认证班

在这里插入图片描述

金科应用研院

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。