最重要的事情开始都会讲:建模是始终服务于业务的,没有业务的评分卡就没有灵魂
风控建模卡方分箱步骤详解篇
这是我第一次使用CSDN文章,希望将很多事情做到细致和极致,也希望真的可以给大家带来帮助
客观讲,卡方检验逻辑简单,
- 基于四个表计算卡方值,
- 通过自由度,置信度得到该条件下的卡方值
- 基于四个表卡方值与实际操作进行比对,对实际结果进行比对,是否有显著区别
风控建模分箱流程图
很多博客很客观的讲,代码的问题不多讲述,基本都是以代码讲解,大部分都是复制,不具备可读性,这里细致讲解一下:
风控建模中前期的数据预处理中,分箱占极大一块,但是现有讲解十
卡方分箱实际调优变量
卡方分箱调优变量总结下来包括7个:
- 单变量占比 :分箱前检查,如果比重太大(比如高于90%),则分箱意义不大
- 缺失值占比 :分箱前检查,如果缺失值过多,则分箱意义不大
- 空值占比 :与2实际完全一致,用法不同,是进行分箱时,需要基于空值比例决定是否单独一箱,
比如空值数据极少,可以并入一箱
空值在风控建模中个人觉得会基于比例去判断