逻辑回归-关于WOE和IV的一些理解

最新推荐文章于 2024-04-25 11:56:53 发布

return bool(1)

最新推荐文章于 2024-04-25 11:56:53 发布

阅读量945

点赞数

分类专栏： return bool(1)的笔记（该系列文章不一定正确！）文章标签：逻辑回归人工智能 sklearn 回归

本文链接：https://blog.csdn.net/liu20020918zz/article/details/128087803

版权

本文探讨了WOE（权重-of-evidence）和IV（信息值）在逻辑回归建模中的应用。WOE描述了特征分箱对正类概率的影响，其值越大，正类的可能性越大。通过将特征转换为WOE值，逻辑回归模型的系数可以保持正数，从而更好地解释特征的重要性。IV值用于选择特征，因为它衡量了特征区分正负类的能力，而WOE本身随着分箱变化，不适宜直接用于特征选择。

摘要由CSDN通过智能技术生成

本文主要解决为什么WOE能用于逻辑回归建模

写到最后才发现出问题了
这里认为少数类为good，就是正类

理解WOE和IV

IV的定义公式
$\text{IV}=\sum\limits_{i=1}^{N}(good\%-bad\%)\times \text{WOE}_{i}$
这里的 $i$ 是同一个特征下不同的分箱，good%表示该特征该分箱的样本中正类所占所有正类的比例，bad%同理

WOE的定义公式
$\text{WOE}=\ln \left(\frac{good\%}{bad\%}\right)$

根据定义，我们可以得到WOE的取值范围是全体实数。
我们进一步理解一下WOE，会发现，WOE其实描述了变量当前这个分组，对判断个体是否属于正类所起到影响方向和大小。当WOE为正时，变量当前取值对判断个体是否为正类起到的正向的影响，当WOE为负时，起到了负向影响。而WOE值的大小，则是这个影响的大小的体现。

也就说，如果我们有一个新的样本，选中一个特征，该样本该特征上的取值对应分箱的WOE为正，那么我们就认为其属于正类的可能性更大，在上述条件下，WOE的值越大，那么其属于正类的可能性就进一步增大

实际上，这个我们可以从公式的角度理解
$\begin{aligned} WOE&=\ln \left(\frac{good\%}{bad\%}\right)\\ &=\ln \left(\frac{good}{Good} \cdot \frac{bad}{Bad}\right)\\ &=\ln \left(\frac{good}{bad}\right)-\ln \left(\frac{Good}{Bad}\right) \end{aligned}$
good为这个分箱里正类样本的个数，Good为整个数据集中正类样本的个数。bad，Bad同理
对比贝叶斯公式
$\begin{aligned} \left\{\begin{aligned}&P(Y=+|X)=\frac{P(X|Y=+)P(Y=+)}{P(X)}\\ &P(Y=-|X)=\frac{P(X|Y=-)P(Y=-)}{P(X)}\end{aligned}\right. \end{aligned}$