一、上采样和下采样的对比 上采样:放大图片下采样:缩小图片 二、过采样和欠采样的对比 针对于正负样本不均衡,例如当正负样本比例达到1:99,分类器将所有的样本都判为负样本能达到99%的正确率,显然结果不是我们想要的。又例如,有一组数据,其中标签为1的样本数有2000,标签为0的数为400。 过采样:从少数类样本中(这里标签为0的样本就是少数样本)重复抽取样本,对少数类样本进行多次复制,扩大数据规模欠采样:从多数类样本中(这里标签为1的样本就是多数样本)丢弃部分样本,可能会损失部分有用的东西,造成模型只学到整体的一部分。