目录
一、金融风控处理步骤
1 导入库,加载数据集
2 指定不参与训练的列名,和参与训练的列名
3 选择开发样本,验证样本,时间外样本
4 查看数据缺失值,类型和情况
5 特征筛选
单特征筛选方法: 缺失率,Iv值,PSI值,相关性。通过设置缺失率值,psi值和相关性的 不同阈值,选择特征。
多特征筛选方法: 星座图,Boruta,方差膨胀系数,L1正则化,递归特征删除。
Iv值反应特征区分度的能力。Iv值越大,区分度越大。说明该特征越有用。
Psi值反应模型的稳定性,Psi值越小,说明模型越稳定,该特越有用。
6 卡方分箱,得到分割点
7 绘制样本占比关联图
画Bivar 每个变量在 开发样本和时间外样本上的分箱的双变量图。查看趋势情况是不是单调的,如果不单调,需要调整分箱节点,合并箱体。可以自己设置分箱节点,
画出 开发样本,验证样本,时间外样本 合并