woe分析_机器学习-谈谈逻辑回归里面的woe化-20170911

WOE(Weight of Evidence)是信用评分卡中用于变量处理的方法,主要衡量变量组内好坏客户的比例差异。它解决了离散变量直接用于模型时数量关系未知的问题,尤其适用于逻辑回归。WOE编码有利于模型解释性,减少变量数量,且能明确区分正负向影响。然而,WOE不适用于所有算法,可能存在共线性问题。
摘要由CSDN通过智能技术生成

1、woe是什么东西

如果有人接触过信用评分卡,那么肯定是有看过在变量处理那一步,有一个变量woe的过程。那么woe是如何计算的呢,有什么具体含义呢。

woe全称是Weight of Evidence,即证据权重,也叫作自变量的一种编码,这种定义是不是很拗口,也很难理解,但你看过它的公式以后就会比较清楚了。

这是某一变量某一分组的woe,B代表风险客户,G代表正常客户,所以WOE衡量了这组里面的好坏客户的占比与整体样本好坏样本占比的差异,差异越大,对风险区分越明显。但woe只考虑了风险区分的能力,但没有考虑能区分的用户有多少,所以又引出了一个IV的定义,可以衡量一个变量的风险区分能力:

2、为什么可以woe化

看到我上面说的是为什么可以,而不是为什么一定要,这两者还是有差别的,毕竟我们并不一定要woe化,woe化只是一个好的习惯(经验)而已。

但是你知道为什么在这里是可以woe化的呢,那么在其他算法里面是不是可以woe化呢。

要回答上面这个问题,首先我们可以想想如果变量离散化后不做woe化,那么是不是这个时候的变量可以直接丢到算法里面去学习呢,答案是否定的。如果我们不采用woe化,我们一般会将离散后的变量或者一些类别变量dummy化,那为什么要dummy化呢,而不是直接使用离散后的变量呢,这里的原因就是离散后的变量很难知道各个组之间的数量关系,比如我将年龄分成了20岁以下、20-50、50岁以上

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值