过采样 Oversampling

过采样是指对训练集里的某类样例增加采样次数以减小 类别不平衡 。

与之相对应的是 欠采样 ,是指对训练集里的某类样例减少采样次数。

过采样和欠采样的对比

过采样会随机复制少数样例以增大它们的规模。欠采样则随机地少采样主要的类。

过采样的好处是它也会复制误差的数量。相对地,欠采样会让独立变量的方差看起来比其实际的方差更高。

过采样和类别不平衡

类别不平衡(class-imbalance)是指在训练 分类器 中所使用的训练集的类别分布不均。比如说一个 二分类 问题, 1000 个训练样本,比较理想的情况是 正类 、 负类 样本的数量相差不多;而如果正类样本有 995 个、负类样本仅 5 个,就意味着存在类别不平衡。

类别不平衡会导致模型没有学习到如何判别少类别,会在判断是出现偏差。

类别不平衡可以通过过采样、欠采样和调整 θ 值的方式去解决。其中过采样和欠采样是针对训练集里的样本数量,去相应的作出合适的采样方法,最终缓解类别不平衡。

父级词:采样法

同级词;欠采样

文章出处 过采样 Oversampling - 人工智能百科 - 超神经 (hyper.ai)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值