【金融风控】变量不单调对逻辑回归评分卡的影响

本文转载于知乎《变量不单调对逻辑回归评分卡的影响》一文

背景
有一些变量(如年龄),它的Bivar图,从业务上理解应该是U型的。比如可能是年龄过大和年龄过小的坏账都比较高。对于这种变量很多公司在处理的时候都很头痛,一方面考虑着要保持传统(变量badrate要单调),一方面觉得业务上解释的通。

那么,U型变量需要做额外处理么?

群里有人提出U型变量,在lr模型中是不好处理的。原因是此类变量在需要非线性拟合才能拟合的更好,因为他在解空间中属于直线不可分状态,是不可能通过一条直线将正负样本区分开的。具体见下图:

image

插图由梅子行@Zain Mei 提供,出自他尚未出版的新书,欢迎订购

抛开X2,单看X1这个维度。随着X1增大,badrate先减后增,在解空间中画出样本分布如左图。那么在这样的一个分布中,逻辑回归是无法很好的划出一条直线来将正负样本分开的。于是提出了一种映射操作:X1减去X1的中值后取绝对值。相当于折了一下,折一下以后这个变量就变成了单调的了,于是在解空间中分布图也会发生变化,变得线性可分。

听起来很有道理对不对?但是接下来的问题是,一般来说做LR评分卡入模前都会对变量做WOE编码。

WOE编码其实就是对lr模型只能处理线性问题的缓解!

一般来说做LR评分卡入模前都会对变量做WOE化,也有拿原始值入模的,比如国外某知名现金贷公司,我们再来看看WOE对变量的影响,重新回顾下WOE公式:

image.png

简单理解就是组内badrate/整体badrate后取对数,看公式woe对组内baderate严格单调,转化示例如图所示:

image

由于LR拟合的是woe和y之间的关系,所以woe化后的变量不存在开头图中所说问题。WOE本身就是一种对变量重新编码的方式,对于lr模型而言,它看到的不再是原始变量取值,而是按照WOE编码后输入模型,这时badrate一定是单调的

因此常规评分卡无需处理非单调变量,只要业务逻辑合理即可。woe起到的作用实际上是赋予了逻辑回归一定程度的非线性拟合能力,我们把解空间映射一下,得到如下图:

image

当然如果拿原始变量入模,建议对变量还是需要进行一定转换,否则找到的解上限开局就比不转换低一截。

总结

  • 有WOE编码的情况下,变量的bivar图是否单调对模型拟合本身没有影响。只要其趋势合理,解释通顺,就可以放进模型中(但是趋势过于复杂可能稳定性可能较差);

  • 不单调的变量,如果没有WOE编码,直接入模的话,模型是很难求解的。这也是为什么,大家都说线性模型比较依赖手工特征工程处理。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值