特征离散化(五) 之 评分卡最优分箱

本文介绍了评分卡最优分箱的方法,包括卡方分箱基础上的箱体约束,如保证单箱内好坏样本比例,Bad Rate单调性。Bad Rate是指分箱后坏样本的占比,要求在连续型和有序离散型变量中保持单调性。通过调整箱体数目确保单调后,可进行WOE编码。文章提供了代码实现的获取方式。
摘要由CSDN通过智能技术生成

1. 卡方分箱 之 评分卡最优分箱

评分卡最优分箱在构建评分卡模型时经常使用。其在卡方分箱的基础上,加入了如下箱体约束:

  1. 单箱同时包含好坏样本:
  2. 单箱样本占比不得低于指定值
  3. Bad Rate单调

卡方分箱一致,对于连续型变量可直接分箱;对类别型变量:

  1. 当取值较多时,先用bad rate编码,再用连续型分箱的方式进行分箱
  2. 当取值较少时:
    如果每种类别同时包含好坏样本,无需分箱
    如果有类别只包含好坏样本的一种,需要合并

2. Bad Rate单调

评分卡最优分箱在经过卡方分箱后,需要检验Bad Rate单调性。
Bad Rate:坏样本率,指的是将特征进行分箱之后,每个箱体中坏样本的占比
bad rate 单调性与不同的特征场景
在评分卡模型中,对于比较严格的评分模型,会要求连续型变量和有序的离散型变量在经过分箱后需要保证bad rate的单调性。

  1. 连续性变量:
    在严格的评分卡模型中,对于连续型变量,分箱后所有箱体的 bad rate 要满足单调性,只有满足单调的情况下,才能进行后续的WOE编码
  2. 离散型变量:
    离散化程度高,且无序的变量
    比如省份,职业等,我们会根据每个省份信息统计得到bad rate 数值对原始省份信息进行编码,这样就转化为了连续型变量,进行后续的分箱操作,对于经过bad rate编码后的特征数据,天然单调。
    离散化程度低,且无序的变量
    比如婚姻状况,只有四五个状态值,因此就不需要专门进行bad rate数值编码,只要求出每个离散值对应箱体的bad rate比例是否出现0或者1的情况,若出现说明正负样本的分布存在极端情况,需要对该箱体与其他箱体进行合并, 合并过程完了之后 就可以直接进行后续的WOE编码
    有序的离散型变量
    对于学历这种情况,存在着小学,初中,高中,本科,硕士,博士等几种情况,而且从业务角度来说 这些离散值是有序的, 因此在分箱的时候,必须保证bin之间的有序性,再根据bad rate 是否为0 或者1的情况 决定是否进行合并,最终将合并的结果进行WOE编码

因此,bad rate单调性只在连续型数值变量和有序离散型变量分箱的过程中会考虑。当分箱后所有箱体的bad rate 呈现单调性,才可以进行下一步的WOE编码。

bad rate单调性的原因分析

  1. 逻辑回归模型本身不要求特征对目标变量的单调性。之所以要求分箱后单调,主要是从业务角度考虑,解释、使用起来方便一点。如果有某个(分箱后的)特征对目标变量不单调,会加剧模型解释的复杂度。
  2. 对于像年龄这种特征,其对目标变量往往是一个U型或倒U型的分布,有些公司/部门/团队是允许变量的bad rate呈(倒)U型的。

那如何满足bad rate单调呢?当卡方分箱结束后,若所有箱体

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值