不平衡数据集过（欠）采样后预测概率的调整

最新推荐文章于 2024-08-21 20:54:16 发布

nickzzzhu

最新推荐文章于 2024-08-21 20:54:16 发布

阅读量4k

点赞数 2

分类专栏：机器学习文章标签：逻辑回归不均衡样本

本文链接：https://blog.csdn.net/nickzzzhu/article/details/83821372

版权

在处理不平衡数据集时，逻辑回归等算法可能因样本不均衡导致预测偏差。解决方法包括修改损失函数权重或采用采样技术。然而，采样后模型预测的概率不再对应原始分布，需要调整。通过贝叶斯理论，可以将平衡后的后验概率转换回平衡前的概率，保持似然函数不变，仅调整先验概率。

摘要由CSDN通过智能技术生成

很多机器学习算法无法在不平衡样本上取得很好地效果，这是由于其损失函数在判定正负样本损失时没有考虑到样本不均衡导致的。比如逻辑回归的损失函数：

这里没有加入正则项，但也可以看出对于正负样本预测错了的惩罚是一样的，当样本非常不均衡时，这个损失函数可能导致分类器输出结果全都是占比较大的样本：如99%都是正样本，1%是负样本，则学习出来的结果可能是不管扔进去什么数据，分类器一律预测为正样本，因为这样的损失已经很小了。

解决这一问题，一是改变损失函数，比如y=1的样本远少于y=0的，就在损失函数里加大y=1的系数权重。二是通过采样方法改变y的先验分布。若通过采样方法如下采样改变了Y=1：Y=0的比例，则在使用某些算法如逻辑回归时会有一些问题：在调整后的数据集上训练出来的输出概率不是原始数据分布的概率，若要知道原分布下的概率，要对结果进行调整

这里插一句，尽管理论上来说人们认为逻辑回归的输出是某类别的概率，但我在工作中很少用“概率”来这么看待他们，而更多的是用这个连续值对输出结果排序，并根据需要选取分类阈值。比如做信贷审批，不会简单地把输出逾期概率0.5以上的人拒绝，而是用lift chart看分到哪一步的人群的逾期率是可接受的，所以逻辑回归的输出更多应用在对人群排序，而非真的用“概率”这层含义去解释。

回到本文主题，毕竟通过采样，我们改变了先验概率，导致模型预测的后验概率不是原样本的概率&#x