woe分析_机器学习-谈谈逻辑回归里面的woe化-20170911

最新推荐文章于 2022-11-28 21:32:20 发布

weixin_39615741

最新推荐文章于 2022-11-28 21:32:20 发布

阅读量1.1k

点赞数

文章标签： woe分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39615741/article/details/111785226

版权

WOE（Weight of Evidence）是信用评分卡中用于变量处理的方法，主要衡量变量组内好坏客户的比例差异。它解决了离散变量直接用于模型时数量关系未知的问题，尤其适用于逻辑回归。WOE编码有利于模型解释性，减少变量数量，且能明确区分正负向影响。然而，WOE不适用于所有算法，可能存在共线性问题。

摘要由CSDN通过智能技术生成

1、woe是什么东西

如果有人接触过信用评分卡，那么肯定是有看过在变量处理那一步，有一个变量woe的过程。那么woe是如何计算的呢，有什么具体含义呢。

woe全称是Weight of Evidence，即证据权重，也叫作自变量的一种编码，这种定义是不是很拗口，也很难理解，但你看过它的公式以后就会比较清楚了。

这是某一变量某一分组的woe,B代表风险客户，G代表正常客户，所以WOE衡量了这组里面的好坏客户的占比与整体样本好坏样本占比的差异，差异越大，对风险区分越明显。但woe只考虑了风险区分的能力，但没有考虑能区分的用户有多少，所以又引出了一个IV的定义，可以衡量一个变量的风险区分能力：

2、为什么可以woe化

看到我上面说的是为什么可以，而不是为什么一定要，这两者还是有差别的，毕竟我们并不一定要woe化，woe化只是一个好的习惯(经验)而已。

但是你知道为什么在这里是可以woe化的呢，那么在其他算法里面是不是可以woe化呢。

要回答上面这个问题，首先我们可以想想如果变量离散化后不做woe化，那么是不是这个时候的变量可以直接丢到算法里面去学习呢，答案是否定的。如果我们不采用woe化，我们一般会将离散后的变量或者一些类别变量dummy化，那为什么要dummy化呢，而不是直接使用离散后的变量呢，这里的原因就是离散后的变量很难知道各个组之间的数量关系，比如我将年龄分成了20岁以下、20-50、50岁以上

最低0.47元/天解锁文章

weixin_39615741

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
woe分析_机器学习-谈谈逻辑回归里面的woe化-20170911

1、woe是什么东西如果有人接触过信用评分卡，那么肯定是有看过在变量处理那一步，有一个变量woe的过程。那么woe是如何计算的呢，有什么具体含义呢。woe全称是Weight of Evidence，即证据权重，也叫作自变量的一种编码，这种定义是不是很拗口，也很难理解，但你看过它的公式以后就会比较清楚了。这是某一变量某一分组的woe,B代表风险客户，G代表正常客户，所以WOE衡量了这组里面的好坏客户...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。