过采样是指对训练集里的某类样例增加采样次数以减小 类别不平衡 。
与之相对应的是 欠采样 ,是指对训练集里的某类样例减少采样次数。
过采样和欠采样的对比
过采样会随机复制少数样例以增大它们的规模。欠采样则随机地少采样主要的类。
过采样的好处是它也会复制误差的数量。相对地,欠采样会让独立变量的方差看起来比其实际的方差更高。
过采样和类别不平衡
类别不平衡(class-imbalance)是指在训练 分类器 中所使用的训练集的类别分布不均。比如说一个 二分类 问题, 1000 个训练样本,比较理想的情况是 正类 、 负类 样本的数量相差不多;而如果正类样本有 995 个、负类样本仅 5 个,就意味着存在类别不平衡。
类别不平衡会导致模型没有学习到如何判别少类别,会在判断是出现偏差。
类别不平衡可以通过过采样、欠采样和调整 θ 值的方式去解决。其中过采样和欠采样是针对训练集里的样本数量,去相应的作出合适的采样方法,最终缓解类别不平衡。
父级词:采样法
同级词;欠采样