申请评分卡模型实战——思路 + 代码（待补充）

最新推荐文章于 2023-08-15 19:52:29 发布

LuLuYao9494

最新推荐文章于 2023-08-15 19:52:29 发布

阅读量1.3k

点赞数 1

文章标签：评分卡机器学习风控

本文链接：https://blog.csdn.net/LuLuYao9494/article/details/92851396

版权

评分卡模型流程：

（1）变量清洗和处理

（2）变量衍生

（3）建模预测

评分卡模型整体逻辑：

（1）首先，正式进入模型阶段是在变量清洗和变量衍生后，此时建模需要知道哪些变量是连续型变量，哪些变量是离散型变量，以便对变量进行处理（因为变量性质不同，面临不同的操作）；

（2）对于连续型变量可以直接进行分箱操作，基于前一篇文章的ChiMerge函数，最后分箱后的条件要满足三点，也就是每箱都要有好坏样本，最后分箱数量不得超过预设的最大分箱数，每箱的占比要不小于给定的阈值，且要注意的是，最后分箱的结果其坏样本率要满足单调性。对于每个连续型变量，我们都要生成对应的新列，以标注每个样本属于哪个分组，后期用来计算WOE值和IV值。

（3）对于离散型变量，我们首先要看离散变量的取值是否超过预设的最大分箱数，如果大于预设地最小分箱数，则要进行Baterate编码，即将每个样本的原始值与分组后对应的该组的坏样本率进行映射，形成一列由坏样本率组成的新列，然后在此基础上，利用连续型变量的分箱方式即可；对于小于等于预设分箱数的离散型变量，看看分组后是否每组都包含好坏样本，如果某个每组没有好样本或者没有坏样本，则要进行组间合并，直到满足条件，然后生成对应的表示分组编号的新列。

（4）基于上述所有变量的表示分组编号的新列，计算每个变量各个箱体的WOE值和每个变量的IV值，从而实现对入模变量的初筛

（5）更进一步，我们将基于初筛后的变量进行相关性检验。为了计算两两变量之间的相关性，我们要将表示分组编号的变量与该分组下的WOE值进行映射，从而形成由各箱的WOE值组成的新列，基于WOE值表示的变量，我们再计算两两之间的变量的相关性，如果变量相关性大于给定的阈值，则保留其中IV值较大的那个变量。

（6）上述步骤完成后，我们将进行多变量分析，通过方差膨胀检验来过滤掉共线性严重的变量，最终确定入模变量。

（7）建模。将最终确定的变量放入模型中进行训练，可以看到模型的效果，（这里要求所有变量的系数显著，且符号为负），如果有不显著的变量存在，我们要通过逐步回归的方式建模（每次只剔除最不显著的变量），直到剩余的变量均显著，选择其对应的模型最为最终的保留结果即可。

最后强调一点的是，一定要弄懂评分卡的建模原理和建模的流程和思路，这样才能以不变应万变~

LuLuYao9494

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
申请评分卡模型实战——思路 + 代码（待补充）

评分卡模型流程：（1）变量清洗和处理（2）变量衍生（3）建模预测评分卡模型整体逻辑：（1）首先，正式进入模型阶段是在变量清洗和变量衍生后，此时建模需要知道哪些变量是连续型变量，哪些变量是离散型变量，以便对变量进行处理（因为变量性质不同，面临不同的操作）；（2）对于连续型变量可以直接进行分箱操作，基于前一篇文章的ChiMerge函数，最后分箱后的条件要满足三点，也就是每...
复制链接

扫一扫