1. 再缩放
以线性分类器为例,决策规则为:
公式(1)
然而,当训练集中正反例的数目不同时,令m+表示正例数目,m-表示反例数目,则观测几率是m+/m-,由于我们通常假设训练集是真实样本总体的无偏采样,因此观测几率就代表了真实几率。于是,只要分类器的预测几率高于观测几率就应判定为正例,即:
公式(2)
但是,我们的分类器是基于公式(1)进行决策,因此,需对其预测值进行调整,使其在基于公式(1)决策时,实际是在执行公式(2)。要做到这一点只需令
公式(3)
这就是不平衡学习的一个基本策略——“再缩放”。
但是,再缩放的思想虽然简单,但是实际操作却不平凡,主要因为“训练集是真实样本总体的无偏采样”这个假