之前有位读者朋友说有空介绍一下自动分箱的方法,这个确实在我们实际建模过程前是需要解决的一个问题,简单来说就是把连续变量通过分箱的方式转换为类别变量。关于这个话题,我也借着这个主题来系统的梳理总结一下几点:为什么要分箱?不分箱可以入模型吗?自动分箱的常用方法有哪些?评估分箱效果好坏的方法有哪些? 如果篇幅允许,就顺便把实现的Python代码也分享下,如果太长了就另外起一篇文章来讲。因此,本篇文章主要从下面几个模块来展开说说。
00 Index
01 分箱是什么意思,为什么要分箱,什么时候分箱?
02 常见的自动分箱方法有哪些?
03 如何评估分箱效果的好坏
04 设计一个基于风控建模的自动分箱轮子
01 分箱是什么意思,为什么要分箱,什么时候分箱?
分箱的意思就是将连续性变量通过几个划分点,分割成几段的过程。比如说我们有一个字段「年龄」,通过分箱可以变成:
那到了这里有同学就会问了,为什么要对连续性变量进行分箱呢?直接拿来用不行吗?要回答这个问题,我们先要搞清楚分箱的好处有有哪些,主要有2点:
1)对变量进行分箱后,会对异常数据有较强的鲁棒性,变量会更加稳定;
2)变量分箱后,对于风控建模常用的LR,这种表达能力有限的线性模型,可以提升模型的表达能力,加强模型拟合能力。
嗯,讲了一些好处,还是有一个问题需要解决的,那就是:不分箱直接使用变