【金融风控】变量不单调对逻辑回归评分卡的影响

最新推荐文章于 2024-03-26 15:00:41 发布

不可能打工

最新推荐文章于 2024-03-26 15:00:41 发布

阅读量1.3k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ewen_lee/article/details/106851980

版权

本文转载于知乎《变量不单调对逻辑回归评分卡的影响》一文

背景
有一些变量（如年龄），它的Bivar图，从业务上理解应该是U型的。比如可能是年龄过大和年龄过小的坏账都比较高。对于这种变量很多公司在处理的时候都很头痛，一方面考虑着要保持传统（变量badrate要单调），一方面觉得业务上解释的通。

那么，U型变量需要做额外处理么？

群里有人提出U型变量，在lr模型中是不好处理的。原因是此类变量在需要非线性拟合才能拟合的更好，因为他在解空间中属于直线不可分状态，是不可能通过一条直线将正负样本区分开的。具体见下图：

image

插图由梅子行@Zain Mei 提供，出自他尚未出版的新书，欢迎订购

抛开X2，单看X1这个维度。随着X1增大，badrate先减后增，在解空间中画出样本分布如左图。那么在这样的一个分布中，逻辑回归是无法很好的划出一条直线来将正负样本分开的。于是提出了一种映射操作：X1减去X1的中值后取绝对值。相当于折了一下，折一下以后这个变量就变成了单调的了，于是在解空间中分布图也会发生变化，变得线性可分。

听起来很有道理对不对？但是接下来的问题是，一般来说做LR评分卡入模前都会对变量做WOE编码。

WOE编码其实就是对lr模型只能处理线性问题的缓解！

一般来说做LR评分卡入模前都会对变量做WOE化，也有拿原始值入模的，比如国外某知名现金贷公司，我们再来看看WOE对变量的影响，重新回顾下WOE公式：

image.png

简单理解就是组内badrate/整体badrate后取对数，看公式woe对组内baderate严格单调，转化示例如图所示：

image

由于LR拟合的是woe和y之间的关系，所以woe化后的变量不存在开头图中所说问题。WOE本身就是一种对变量重新编码的方式，对于lr模型而言，它看到的不再是原始变量取值，而是按照WOE编码后输入模型，这时badrate一定是单调的。

因此常规评分卡无需处理非单调变量，只要业务逻辑合理即可。woe起到的作用实际上是赋予了逻辑回归一定程度的非线性拟合能力，我们把解空间映射一下，得到如下图：

image

当然如果拿原始变量入模，建议对变量还是需要进行一定转换，否则找到的解上限开局就比不转换低一截。

总结：

有WOE编码的情况下，变量的bivar图是否单调对模型拟合本身没有影响。只要其趋势合理，解释通顺，就可以放进模型中（但是趋势过于复杂可能稳定性可能较差）；
不单调的变量，如果没有WOE编码，直接入模的话，模型是很难求解的。这也是为什么，大家都说线性模型比较依赖手工特征工程处理。

不可能打工

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
【金融风控】变量不单调对逻辑回归评分卡的影响

本文转载于知乎《变量不单调对逻辑回归评分卡的影响》一文背景有一些变量（如年龄），它的Bivar图，从业务上理解应该是U型的。比如可能是年龄过大和年龄过小的坏账都比较高。对于这种变量很多公司在处理的时候都很头痛，一方面考虑着要保持传统（变量badrate要单调），一方面觉得业务上解释的通。那么，U型变量需要做额外处理么？群里有人提出U型变量，在lr模型中是不好处理的。原因是此类变量在需要非线...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。