评分卡Bad rate单调性问题

最新推荐文章于 2022-08-20 18:40:53 发布

路易三十六

最新推荐文章于 2022-08-20 18:40:53 发布

阅读量2.7k

点赞数 1

分类专栏：金融信贷风控的机器学习实战信贷风控---评分卡文章标签：评分卡Bad rate单调性评分卡模型之特征工程中的BadRate单调与特征分箱之间的联

金融信贷风控的机器学习实战同时被 2 个专栏收录

24 篇文章 77 订阅

订阅专栏

信贷风控---评分卡

23 篇文章 113 订阅

订阅专栏

评分卡Bad rate单调性问题

文章转载自https://blog.csdn.net/shenxiaoming77/article/details/79548807

Bad Rate：

坏样本率，指的是将特征进行分箱之后，每个bin下的样本所统计得到的坏样本率

bad rate 单调性与不同的特征场景：

在评分卡模型中，对于比较严格的评分模型，会要求连续性变量和有序性的变量在经过分箱后需要保证bad rate的单调性。

1. 连续性变量：

在严格的评分卡模型中，对于连续型变量就需要满足分箱后所有的bin的 bad rate 要满足单调性，只有满足单调新的情况下，才能进行后续的WOE编码

2. 离散型变量：

离散化程度高，且无序的变量：

比如省份，职业等，我们会根据每个省份信息统计得到bad rate 数值对原始省份信息进行编码，这样就转化为了连续性变量，进行后续的分箱操作，对于经过bad rate编码后的特征数据，天然单调。

只有当分箱后的所有的bin的bad rate 呈现单调性，才可以进行下一步的WOE编码

离散化程度低,且无序的变量：

比如婚姻状况，只有四五个状态值，因此就不需要专门进行bad rate数值编码，只要求出每个离散值对应的bin的bad rate比例是否出现0或者1的情况，若出现说明正负样本的分布存在极端情况，需要对该bin与其他bin进行合并，合并过程完了之后就可以直接进行后续的WOE编码

有序的离散变量：

对于学历这种情况，存在着小学，初中，高中，本科，硕士，博士等几种情况，而且从业务角度来说这些离散值是有序的，因此我们在分箱的时候，必须保证bin之间的有序性，再根据bad rate 是否为0 或者1的情况决定是否进行合并，最终将合并的结果进行WOE编码

因此bad rate单调性只在连续性数值变量和有序性离散变量分箱的过程中会考虑。

bad rate要求单调性的原因分析：

1. 逻辑回归模型本身不要求特征对目标变量的单调性。之所以要求分箱后单调，主要是从业务角度考虑，解释、使用起来方便一点。如果有某个（分箱后的）特征对目标变量不单调，会加剧模型解释型的复杂化

2. 对于像年龄这种特征，其对目标变量往往是一个U型或倒U型的分布，有些公司／部门／团队是允许变量的bad rate呈（倒）U型的。
---------------------
作者：Michael_Shentu
来源：CSDN
原文：https://blog.csdn.net/shenxiaoming77/article/details/79548807
版权声明：本文为博主原创文章，转载请附上博文链接！

路易三十六

关注

1
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。