风控建模笔记

风控建模=业务+算法+项目

标准评分卡开发流程 
python:pandas、numpy、statsmodels、sklearn

数据分析流程:
1,数据获取
2,数据预处理(空值,异常值处理)
3,对数据进行分箱,woe编码,建模预估
4,评估模型的区分能力、预测能力、稳定性,并形成模型评估报告
5,将Logistic模型转换为标准评分

https://www.pianshen.com/article/939468951/

 

数据:

特征部分:

特征工程:https://zhuanlan.zhihu.com/p/111296130
https://zhuanlan.zhihu.com/p/111297905
1)一份完整的自动化特征评估脚本
2)包括数据预处理、特征分箱、特征重要性评估

特征工程预处理大全:https://blog.csdn.net/overfit/article/details/79856417

  • 数据预处理: 1、数据分布。 2、数据集中度检测。 3、数据脏乱情况。缺失值(是否隐藏风险)、离群值、错误值、重复值,根据其是否符合业务逻辑,判断数据是否存在异常。
     
  • 特征工程: 特征预处理、特征选择、特征衍生、特征提取等。用到的技术主要有连续变量离散化、分类变量哑编码、卡方分箱、特征编码、共线性检验、PCA降维、交叉验证等。
     
  • 筛选变量的常用方法:随机森林、GBDT、逻辑回归显著性、VIF共线性、相关性图谱等、随机逻辑回归筛选、递归法筛选等。
     
  • 好的特征:1、稳定性高 2、区分度高 3、差异性大 4、符合业务逻辑
     
  • 衍生特征,从三种角度出发: 1、数学运算。求和、比例、频率、平均等。 2、时间窗口。有些变量的意义只有在一段时间内才有效,所以针对时间比如说注册如期、交易日期等变量,需要计算其到现在的时间段,完成变量的衍生。 3、交叉组合。GBDT\XGBoost、LDA主题模型、用户画像分等等都可以做特征衍生。 衍生出来的特征要符合实际业务含义,并且要保持稳定。

挑选特征:挑选入模变量过程是个比较复杂的过程,需要考虑的因素很多,比如:变量的预测能力,变量之间的相关性,变量的简单性(容易生成和使用),变量的强壮性(不容易被绕过),变量在业务上的可解释性(被挑战时可以解释的通)等等。但是,其中最主要和最直接的衡量标准是变量的预测能力。
IV(信息量)量化指标:衡量每自变量的预测能力。

  • IV值可以衡量各变量对y的预测能力,用于筛选变量。
  • 对离散型变量,woe可以观察各个level间的跳转对odds的提升是否呈线性,而IV可以衡量变量整体(而不是每个level)的预测能力。
  • 对连续型变量,woe和IV值为分箱的合理性提供了一定的依据。

模型部分:

    熟悉算法,公式推导及其在应用场景中的差别
    简单评价几种常用算法的优缺点:

  • 逻辑回归 优点:简单、稳定、可解释、技术成熟、易于监测和部署 缺点:一定不能有缺失数据;必须是数值型特征,需要编码;准确度不高
  • 决策树 优点:对数据质量要求不高,易解释 缺点:准确度不高
  • 其他元模型
  • 组合模型 优点:准确度高,稳定性强,泛化能力强,不易过拟合 缺点:不易解释,部署困难,计算量大

模型评估:

  1. 区分度:主要有KS和GINI指标,理解KS的定义及用法
  2. 准确性:主要有roc曲线和AUC指标,理解AUC的定义及用法
  3. 稳定性:主要有PSI指标,理解PSI的定义及用法
  • auc和ks的关系? 有人说auc是衡量整个模型的排序能力,KS是衡量某个分段的区分能力。

模型部署

  • 模型的部署上线应用类似的问题,偏开发,分析人员可能不太擅长。主要就是api接口安装、测试、等级划分、额度设计、风险定价、ABtest的设计等等。

模型监测

  • 上述一些运营数据和风控指标的关注

模型调优

模型调优的方法

  • A类调优
  • D类调优

 

当下的建模过程中(至少在金融风控领域)并没有完全摆脱logistic模型,原因大致有以下几点:

  1. logistic模型客群变化的敏感度不如其他高复杂度模型,因此稳健更好,鲁棒性更强。
  2. 模型直观。系数含义好阐述、易理解。对金融领域高管以及银行出身的建模专家,变量系数可以跟他们的业内知识做交叉验证,更容易让人信服。
  3. 也是基于2的模型直观性,当模型效果衰减的时候,logistic模型能更好的诊断病因。

评分卡模型的评分转换:
WOE&IV:https://zhuanlan.zhihu.com/p/30026040

1. 营销获客 2. 贷前风控 2.1 贷前审查 2.2 反欺诈 2.3 风控策略 2.4 风控建模 2.5 数据管理 风控总监训练营 ......................................................................................................792 4 节课玩转信用评分卡模型....................................................................................792 如何搭建虚拟信用卡风控体系 ...............................................................................792 风控大牛手把手教你搭建企业级信用评分模型.....................................................792 2 大维度全面ᨀ升催收效率....................................................................................792 3 堂课,从 0-1 掌握基于数据驱动的风险定价核心...............................................792 如何打造现金贷产品的风控体系?........................................................................792 解密 P2P 网贷备案——专家教你如何正确应对备案..............................................793 区块链的前世今生及其应用 ...................................................................................793 区块链热潮下不可不知的法律风险:法律专家权威解读区块链、代币等案例与法律 分析 .........................................................................................................................793 牌照决定生死,现金贷及 P2P 如何拿牌?............................................................793
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值