风控建模=业务+算法+项目
标准评分卡开发流程
python:pandas、numpy、statsmodels、sklearn
数据分析流程:
1,数据获取
2,数据预处理(空值,异常值处理)
3,对数据进行分箱,woe编码,建模预估
4,评估模型的区分能力、预测能力、稳定性,并形成模型评估报告
5,将Logistic模型转换为标准评分
https://www.pianshen.com/article/939468951/
数据:
特征部分:
特征工程:https://zhuanlan.zhihu.com/p/111296130
https://zhuanlan.zhihu.com/p/111297905
1)一份完整的自动化特征评估脚本
2)包括数据预处理、特征分箱、特征重要性评估
特征工程预处理大全:https://blog.csdn.net/overfit/article/details/79856417
- 数据预处理: 1、数据分布。 2、数据集中度检测。 3、数据脏乱情况。缺失值(是否隐藏风险)、离群值、错误值、重复值,根据其是否符合业务逻辑,判断数据是否存在异常。
- 特征工程: 特征预处理、特征选择、特征衍生、特征提取等。用到的技术主要有连续变量离散化、分类变量哑编码、卡方分箱、特征编码、共线性检验、PCA降维、交叉验证等。
- 筛选变量的常用方法:随机森林、GBDT、逻辑回归显著性、VIF共线性、相关性图谱等、随机逻辑回归筛选、递归法筛选等。
- 好的特征:1、稳定性高 2、区分度高 3、差异性大 4、符合业务逻辑
- 衍生特征,从三种角度出发: 1、数学运算。求和、比例、频率、平均等。 2、时间窗口。有些变量的意义只有在一段时间内才有效,所以针对时间比如说注册如期、交易日期等变量,需要计算其到现在的时间段,完成变量的衍生。 3、交叉组合。GBDT\XGBoost、LDA主题模型、用户画像分等等都可以做特征衍生。 衍生出来的特征要符合实际业务含义,并且要保持稳定。
挑选特征:挑选入模变量过程是个比较复杂的过程,需要考虑的因素很多,比如:变量的预测能力,变量之间的相关性,变量的简单性(容易生成和使用),变量的强壮性(不容易被绕过),变量在业务上的可解释性(被挑战时可以解释的通)等等。但是,其中最主要和最直接的衡量标准是变量的预测能力。
IV(信息量)量化指标:衡量每自变量的预测能力。
- IV值可以衡量各变量对y的预测能力,用于筛选变量。
- 对离散型变量,woe可以观察各个level间的跳转对odds的提升是否呈线性,而IV可以衡量变量整体(而不是每个level)的预测能力。
- 对连续型变量,woe和IV值为分箱的合理性提供了一定的依据。
模型部分:
熟悉算法,公式推导及其在应用场景中的差别
简单评价几种常用算法的优缺点:
- 逻辑回归 优点:简单、稳定、可解释、技术成熟、易于监测和部署 缺点:一定不能有缺失数据;必须是数值型特征,需要编码;准确度不高
- 决策树 优点:对数据质量要求不高,易解释 缺点:准确度不高
- 其他元模型
- 组合模型 优点:准确度高,稳定性强,泛化能力强,不易过拟合 缺点:不易解释,部署困难,计算量大
模型评估:
- 区分度:主要有KS和GINI指标,理解KS的定义及用法
- 准确性:主要有roc曲线和AUC指标,理解AUC的定义及用法
- 稳定性:主要有PSI指标,理解PSI的定义及用法
- auc和ks的关系? 有人说auc是衡量整个模型的排序能力,KS是衡量某个分段的区分能力。
模型部署
- 模型的部署上线应用类似的问题,偏开发,分析人员可能不太擅长。主要就是api接口安装、测试、等级划分、额度设计、风险定价、ABtest的设计等等。
模型监测
- 上述一些运营数据和风控指标的关注
模型调优
模型调优的方法
- A类调优
- D类调优
当下的建模过程中(至少在金融风控领域)并没有完全摆脱logistic模型,原因大致有以下几点:
- logistic模型客群变化的敏感度不如其他高复杂度模型,因此稳健更好,鲁棒性更强。
- 模型直观。系数含义好阐述、易理解。对金融领域高管以及银行出身的建模专家,变量系数可以跟他们的业内知识做交叉验证,更容易让人信服。
- 也是基于2的模型直观性,当模型效果衰减的时候,logistic模型能更好的诊断病因。
评分卡模型的评分转换:
WOE&IV:https://zhuanlan.zhihu.com/p/30026040