类别不平衡问题就是指分类任务中不同类别的训练样例数据差别很大的情况。在现实的分类任务中,我们经常遇到类别不平衡问题,例如在通过拆分法解决多分类问题时,即使原问题中不同类别的训练样例数目相当,在用OvR(一对剩余one to rest)和MvM(多对多)策略产生的二分类任务仍可能出现类别不平衡现象,因此有必要了解类别不平衡问题的解决方法。
1. “再缩放”策略
从线性分类器的角度讨论很容易理解,在我们用 y = w T x + b y=w^{T}x+b y=wTx+b对新样本进行分类时,事实上是在用预测出的 y y y值与一个阈值进行比较,例如 y > 0.5 y>0.5 y>0.5时判别为正例,否则为反例。 y y y实际上表达了正例的可能性,几率(logistic regression) y 1 − y \frac{y}{1-y} 1−yy则反映了正例可能性与反例可能性之比值,阈值设置为0.5恰好表明分类器认为真实正、反例可能性相同,即分类器的决策规则为:
若 y 1 − y > 1 则 预 测 为 正 例