逻辑回归-关于WOE和IV的一些理解

本文探讨了WOE(权重-of-evidence)和IV(信息值)在逻辑回归建模中的应用。WOE描述了特征分箱对正类概率的影响,其值越大,正类的可能性越大。通过将特征转换为WOE值,逻辑回归模型的系数可以保持正数,从而更好地解释特征的重要性。IV值用于选择特征,因为它衡量了特征区分正负类的能力,而WOE本身随着分箱变化,不适宜直接用于特征选择。
摘要由CSDN通过智能技术生成

本文主要解决为什么WOE能用于逻辑回归建模

写到最后才发现出问题了
这里认为少数类为good,就是正类

理解WOE和IV

IV的定义公式
IV = ∑ i = 1 N ( g o o d % − b a d % ) × WOE i \text{IV}=\sum\limits_{i=1}^{N}(good\%-bad\%)\times \text{WOE}_{i} IV=i=1N(good%bad%)×WOEi
这里的 i i i是同一个特征下不同的分箱,good%表示该特征该分箱的样本中正类所占所有正类的比例,bad%同理

WOE的定义公式
WOE = ln ⁡ ( g o o d % b a d % ) \text{WOE}=\ln \left(\frac{good\%}{bad\%}\right) WOE=ln(bad%good%)

根据定义,我们可以得到WOE的取值范围是全体实数。
我们进一步理解一下WOE,会发现,WOE其实描述了变量当前这个分组,对判断个体是否属于正类所起到影响方向和大小。当WOE为正时,变量当前取值对判断个体是否为正类起到的正向的影响,当WOE为负时,起到了负向影响。而WOE值的大小,则是这个影响的大小的体现。

也就说,如果我们有一个新的样本,选中一个特征,该样本该特征上的取值对应分箱的WOE为正,那么我们就认为其属于正类的可能性更大,在上述条件下,WOE的值越大,那么其属于正类的可能性就进一步增大

实际上,这个我们可以从公式的角度理解
W O E = ln ⁡ ( g o o d % b a d % ) = ln ⁡ ( g o o d G o o d ⋅ b a d B a d ) = ln ⁡ ( g o o d b a d ) − ln ⁡ ( G o o d B a d ) \begin{aligned} WOE&=\ln \left(\frac{good\%}{bad\%}\right)\\ &=\ln \left(\frac{good}{Good} \cdot \frac{bad}{Bad}\right)\\ &=\ln \left(\frac{good}{bad}\right)-\ln \left(\frac{Good}{Bad}\right) \end{aligned} WOE=ln(bad%good%)=ln(GoodgoodBadbad)=ln(badgood)ln(BadGood)
good为这个分箱里正类样本的个数,Good为整个数据集中正类样本的个数。bad,Bad同理
对比贝叶斯公式
{ P ( Y = + ∣ X ) = P ( X ∣ Y = + ) P ( Y = + ) P ( X ) P ( Y = − ∣ X ) = P ( X ∣ Y = − ) P ( Y = − ) P ( X ) \begin{aligned} \left\{\begin{aligned}&P(Y=+|X)=\frac{P(X|Y=+)P(Y=+)}{P(X)}\\ &P(Y=-|X)=\frac{P(X|Y=-)P(Y=-)}{P(X)}\end{aligned}\right. \end{aligned} P(Y=+X)=P(X)

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值