风控建模笔记

最新推荐文章于 2024-08-28 23:58:16 发布

置顶管妖妖

最新推荐文章于 2024-08-28 23:58:16 发布

阅读量619

点赞数

分类专栏：风控文章标签：机器学习

本文链接：https://blog.csdn.net/keil_/article/details/105429343

版权

风控专栏收录该内容

2 篇文章

订阅专栏

风控建模=业务＋算法+项目

标准评分卡开发流程
python：pandas、numpy、statsmodels、sklearn

数据分析流程：
1，数据获取
2，数据预处理（空值，异常值处理）
3，对数据进行分箱，woe编码，建模预估
4，评估模型的区分能力、预测能力、稳定性，并形成模型评估报告
5，将Logistic模型转换为标准评分

https://www.pianshen.com/article/939468951/

数据：

特征部分：

特征工程：https://zhuanlan.zhihu.com/p/111296130
https://zhuanlan.zhihu.com/p/111297905
1）一份完整的自动化特征评估脚本
2）包括数据预处理、特征分箱、特征重要性评估

特征工程预处理大全：https://blog.csdn.net/overfit/article/details/79856417

数据预处理： 1、数据分布。 2、数据集中度检测。 3、数据脏乱情况。缺失值（是否隐藏风险）、离群值、错误值、重复值，根据其是否符合业务逻辑，判断数据是否存在异常。
特征工程：特征预处理、特征选择、特征衍生、特征提取等。用到的技术主要有连续变量离散化、分类变量哑编码、卡方分箱、特征编码、共线性检验、PCA降维、交叉验证等。
筛选变量的常用方法：随机森林、GBDT、逻辑回归显著性、VIF共线性、相关性图谱等、随机逻辑回归筛选、递归法筛选等。
好的特征：1、稳定性高 2、区分度高 3、差异性大 4、符合业务逻辑
衍生特征，从三种角度出发： 1、数学运算。求和、比例、频率、平均等。 2、时间窗口。有些变量的意义只有在一段时间内才有效，所以针对时间比如说注册如期、交易日期等变量，需要计算其到现在的时间段，完成变量的衍生。 3、交叉组合。GBDT\XGBoost、LDA主题模型、用户画像分等等都可以做特征衍生。衍生出来的特征要符合实际业务含义，并且要保持稳定。

挑选特征：挑选入模变量过程是个比较复杂的过程，需要考虑的因素很多，比如：变量的预测能力，变量之间的相关性，变量的简单性（容易生成和使用），变量的强壮性（不容易被绕过），变量在业务上的可解释性（被挑战时可以解释的通）等等。但是，其中最主要和最直接的衡量标准是变量的预测能力。
IV（信息量）量化指标：衡量每自变量的预测能力。