机器学习之类别不平衡问题

本文探讨了在机器学习中遇到的类别不平衡问题及其解决方法。介绍了‘再缩放’策略,通过调整分类器的预测值,使其在决策时考虑类别比例。还提到了其它策略,包括欠采样、过采样和阈值移动,分析了它们的优缺点和应用场景。
摘要由CSDN通过智能技术生成

类别不平衡问题就是指分类任务中不同类别的训练样例数据差别很大的情况。在现实的分类任务中,我们经常遇到类别不平衡问题,例如在通过拆分法解决多分类问题时,即使原问题中不同类别的训练样例数目相当,在用OvR(一对剩余one to rest)和MvM(多对多)策略产生的二分类任务仍可能出现类别不平衡现象,因此有必要了解类别不平衡问题的解决方法。

1. “再缩放”策略

从线性分类器的角度讨论很容易理解,在我们用 y = w T x + b y=w^{T}x+b y=wTx+b对新样本进行分类时,事实上是在用预测出的 y y y值与一个阈值进行比较,例如 y > 0.5 y>0.5 y>0.5时判别为正例,否则为反例。 y y y实际上表达了正例的可能性,几率(logistic regression) y 1 − y \frac{y}{1-y} 1yy则反映了正例可能性与反例可能性之比值,阈值设置为0.5恰好表明分类器认为真实正、反例可能性相同,即分类器的决策规则为:

若 y 1 − y > 1 则 预 测 为 正 例

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值