今天看了篇中文的硕士论文,读着读着感觉有点奇怪,仔细一看原来他把下采样和欠采样搞混了,这里笔者就详细区分一下各个名称的概念。
1. 上采样&下采样
-
对于CV领域来说,可以理解为放大图片和缩小图片,将原始图片放大就是上采样,将多个像素点合成一个从而缩小图片就是下采样,所以池化操作就可以理解为一种下采样。如果想进一步了解图像领域的上采样和下采样,可以参照:图像的上采样(upsampling)与下采样(subsampled)
-
对于非cv领域能,我觉得这个词用得少一点,如果是特征增多,一般称为特征构造,如果是选择部分特征,一般说特征选择。
2.过采样&欠采样
这主要是针对不平衡的数据集做的一些操作。
-
欠采样(undersampling):当数据不平衡的时,比如对于一个只用0和1的二分类问题,样本标签1有10000个数据,样本标签0有6000个数据时,为了保持样本数目的平衡,可以选择减少标签1的数据量,这个过程就叫做欠采样。
-
过采样(oversampling)减少数据量固然可以达到以上效果,并且在一定程度上防止过拟合,但是这也牺牲了数据,因此存在另一种增加样本的采样方法,也就是增加标签0的样本数。
3.信号领域
本文主要是介绍机器学习领域,笔者发现在信号处理领域也有这些专业术语,这里可以参考:降采样,过采样,欠采样,子采样,下采样,上采样,你学会了吗?【总结】