彻底分清机器学习中的上采样、下采样、过采样、欠采样【总结】

今天看了篇中文的硕士论文,读着读着感觉有点奇怪,仔细一看原来他把下采样和欠采样搞混了,这里笔者就详细区分一下各个名称的概念。

1. 上采样&下采样

  • 对于CV领域来说,可以理解为放大图片和缩小图片,将原始图片放大就是上采样,将多个像素点合成一个从而缩小图片就是下采样,所以池化操作就可以理解为一种下采样。如果想进一步了解图像领域的上采样和下采样,可以参照:图像的上采样(upsampling)与下采样(subsampled)

  • 对于非cv领域能,我觉得这个词用得少一点,如果是特征增多,一般称为特征构造,如果是选择部分特征,一般说特征选择。

2.过采样&欠采样

这主要是针对不平衡的数据集做的一些操作。

  • 欠采样(undersampling):当数据不平衡的时,比如对于一个只用0和1的二分类问题,样本标签1有10000个数据,样本标签0有6000个数据时,为了保持样本数目的平衡,可以选择减少标签1的数据量,这个过程就叫做欠采样。

  • 过采样(oversampling)减少数据量固然可以达到以上效果,并且在一定程度上防止过拟合,但是这也牺牲了数据,因此存在另一种增加样本的采样方法,也就是增加标签0的样本数。

3.信号领域

本文主要是介绍机器学习领域,笔者发现在信号处理领域也有这些专业术语,这里可以参考:降采样,过采样,欠采样,子采样,下采样,上采样,你学会了吗?【总结】

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

努力改掉拖延症的小白

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值