使用过采样或欠采样处理类别不均衡的数据后,如何正确的做交叉验证?
当我们遇到数据不均衡的时候,我们该如何做:
忽略这个问题
对占比较大的类别进行欠采样
对占比较小的类别进行过采样
忽略这个问题
如果我们使用不均衡的数据来训练分类器,那么训练出来的分类器在预测数据的时候总会返回数据集中占比最大的数据所对应的类别作为结果。分类器的偏差太大,召回率为零或非常接近零,而真假率为1或非常接近于1,即所有或几乎所有记录被检测为会正常分娩,因此基本没有识别出早产的记录。
对大类样本进行欠采样
对大类样本进行欠采样。从占比较大的类别下的样本中随机选择 n 个样本,其中 n 的值等于占比较小的类别下的样本的总数,并在训练阶段使用它们,然后在验证中排除掉这些样本。解决了数据类别不均衡的问题,并且提高了模型的召回率,但是,模型的表现并不是很好,相当于一个弱学习器。
是不是相当于训练了一个弱学习器。
对少数类样本过采样
如果我们在 交叉验证 之前进行过采样会导致 过拟合 的问题。
最简单的过采样方式就是对占比类别较小下的样本进行重新采样,譬如说创建这些样本