不平衡数据集过(欠)采样后预测概率的调整

很多机器学习算法无法在不平衡样本上取得很好地效果,这是由于其损失函数在判定正负样本损失时没有考虑到样本不均衡导致的。比如逻辑回归的损失函数:

这里没有加入正则项,但也可以看出对于正负样本预测错了的惩罚是一样的,当样本非常不均衡时,这个损失函数可能导致分类器输出结果全都是占比较大的样本:如99%都是正样本,1%是负样本,则学习出来的结果可能是不管扔进去什么数据,分类器一律预测为正样本,因为这样的损失已经很小了。

解决这一问题,一是改变损失函数,比如y=1的样本远少于y=0的,就在损失函数里加大y=1的系数权重。二是通过采样方法改变y的先验分布。若通过采样方法如下采样改变了Y=1:Y=0的比例,则在使用某些算法如逻辑回归时会有一些问题:在调整后的数据集上训练出来的输出概率不是原始数据分布的概率,若要知道原分布下的概率,要对结果进行调整

这里插一句,尽管理论上来说人们认为逻辑回归的输出是某类别的概率,但我在工作中很少用“概率”来这么看待他们,而更多的是用这个连续值对输出结果排序,并根据需要选取分类阈值。比如做信贷审批,不会简单地把输出逾期概率0.5以上的人拒绝,而是用lift chart看分到哪一步的人群的逾期率是可接受的,所以逻辑回归的输出更多应用在对人群排序,而非真的用“概率”这层含义去解释。

回到本文主题,毕竟通过采样,我们改变了先验概率,导致模型预测的后验概率不是原样本的概率,如果硬要还原,做法如下&#x

  • 2
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值