经典面试题:对于二分类问题,当训练集中正负样本非常不均衡时,如何处理数据以更好的训练分类模型?
首先,造成分类模型在数据不均衡时出现问题的原因是模型在训练时优化的目标函数和在测试时使用的评价标准不一样。具体来说,(1)训练和测试时数据的样本分布不一致,训练时正负样本比例为1:99,而测试时样本比例为1:1。(2)训练阶段和测试阶段不同类别的权重不一致。根据上述原因,从两个角度处理样本不均衡问题。(1)基于数据的方法随机过采样: 从少数类样本中随机重复有放回的抽取样本以得到更多样本。...
原创
2019-06-04 21:34:58 ·
15695 阅读 ·
7 评论