机器学习之类别不平衡问题

最新推荐文章于 2023-10-20 14:50:30 发布

Never-Giveup

最新推荐文章于 2023-10-20 14:50:30 发布

阅读量1.2k

点赞数 1

分类专栏：机器学习文章标签：机器学习类别不平衡问题再缩放过采样欠采样

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36653505/article/details/82962429

版权

本文探讨了在机器学习中遇到的类别不平衡问题及其解决方法。介绍了‘再缩放’策略，通过调整分类器的预测值，使其在决策时考虑类别比例。还提到了其它策略，包括欠采样、过采样和阈值移动，分析了它们的优缺点和应用场景。

摘要由CSDN通过智能技术生成

类别不平衡问题就是指分类任务中不同类别的训练样例数据差别很大的情况。在现实的分类任务中，我们经常遇到类别不平衡问题，例如在通过拆分法解决多分类问题时，即使原问题中不同类别的训练样例数目相当，在用OvR（一对剩余one to rest）和MvM（多对多）策略产生的二分类任务仍可能出现类别不平衡现象，因此有必要了解类别不平衡问题的解决方法。

1. “再缩放”策略

从线性分类器的角度讨论很容易理解，在我们用 $y=w^{T}x+b$ 对新样本进行分类时，事实上是在用预测出的 $y$ 值与一个阈值进行比较，例如 $y > 0.5$ 时判别为正例，否则为反例。 $y$ 实际上表达了正例的可能性，几率（logistic regression） $\frac{y}{1-y}$ 则反映了正例可能性与反例可能性之比值，阈值设置为0.5恰好表明分类器认为真实正、反例可能性相同，即分类器的决策规则为：

最低0.47元/天解锁文章

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。