特征离散化（五）之评分卡最优分箱-CSDN博客

本文链接：https://blog.csdn.net/SkullSky/article/details/105517976

本文介绍了评分卡最优分箱的方法，包括卡方分箱基础上的箱体约束，如保证单箱内好坏样本比例，Bad Rate单调性。Bad Rate是指分箱后坏样本的占比，要求在连续型和有序离散型变量中保持单调性。通过调整箱体数目确保单调后，可进行WOE编码。文章提供了代码实现的获取方式。

摘要由CSDN通过智能技术生成

1. 卡方分箱之评分卡最优分箱

评分卡最优分箱在构建评分卡模型时经常使用。其在卡方分箱的基础上，加入了如下箱体约束：

单箱同时包含好坏样本：
单箱样本占比不得低于指定值
Bad Rate单调

跟卡方分箱一致，对于连续型变量可直接分箱；对类别型变量：

当取值较多时，先用bad rate编码，再用连续型分箱的方式进行分箱
当取值较少时：
如果每种类别同时包含好坏样本，无需分箱
如果有类别只包含好坏样本的一种，需要合并

2. Bad Rate单调

评分卡最优分箱在经过卡方分箱后，需要检验Bad Rate单调性。
Bad Rate：坏样本率，指的是将特征进行分箱之后，每个箱体中坏样本的占比
bad rate 单调性与不同的特征场景：
在评分卡模型中，对于比较严格的评分模型，会要求连续型变量和有序的离散型变量在经过分箱后需要保证bad rate的单调性。

连续性变量：
在严格的评分卡模型中，对于连续型变量，分箱后所有箱体的 bad rate 要满足单调性，只有满足单调的情况下，才能进行后续的WOE编码
离散型变量：
离散化程度高，且无序的变量：
比如省份，职业等，我们会根据每个省份信息统计得到bad rate 数值对原始省份信息进行编码，这样就转化为了连续型变量，进行后续的分箱操作，对于经过bad rate编码后的特征数据，天然单调。
离散化程度低,且无序的变量：
比如婚姻状况，只有四五个状态值，因此就不需要专门进行bad rate数值编码，只要求出每个离散值对应箱体的bad rate比例是否出现0或者1的情况，若出现说明正负样本的分布存在极端情况，需要对该箱体与其他箱体进行合并，合并过程完了之后就可以直接进行后续的WOE编码
有序的离散型变量：
对于学历这种情况，存在着小学，初中，高中，本科，硕士，博士等几种情况，而且从业务角度来说这些离散值是有序的，因此在分箱的时候，必须保证bin之间的有序性，再根据bad rate 是否为0 或者1的情况决定是否进行合并，最终将合并的结果进行WOE编码

因此，bad rate单调性只在连续型数值变量和有序离散型变量分箱的过程中会考虑。当分箱后所有箱体的bad rate 呈现单调性，才可以进行下一步的WOE编码。

bad rate单调性的原因分析：

逻辑回归模型本身不要求特征对目标变量的单调性。之所以要求分箱后单调，主要是从业务角度考虑，解释、使用起来方便一点。如果有某个（分箱后的）特征对目标变量不单调，会加剧模型解释的复杂度。
对于像年龄这种特征，其对目标变量往往是一个U型或倒U型的分布，有些公司／部门／团队是允许变量的bad rate呈（倒）U型的。

那如何满足bad rate单调呢？当卡方分箱结束后，若所有箱体