两分钟带你彻底明白机器学习中的过采样和欠采样是什么意思？

最新推荐文章于 2024-07-28 16:45:11 发布

The_syx

最新推荐文章于 2024-07-28 16:45:11 发布

阅读量8.4k

点赞数 12

文章标签：信号处理机器学习大数据算法人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/The_syx/article/details/109352089

版权

观点1

是不同数据有不同定义，可分为空间/非空间数据。空间数据指空间上邻近的数据含有相关信息，可以用信号处理滤波的方法提取出这些相关信号，比如图像，声音。非空间数据指数据不是空间上的邻居，不能提取空间信息，比如身高，姓名，工作，收入等不相关信号。

对于空间信号，欠采样和过采样就是信号处理中的under-sample和over-sample。其中心思想是根据采样定理，数字信号能保存的最大频率是其采样频率的1/2。

欠采样是采样频率小于信号最大频率的2倍，会有频谱的叠加，产生混叠。
过采样是采样频率远大于信号最大频率的2倍，会增加计算量，在数字换模拟信号时，还会增加模拟噪声。

对于非空间信号，欠采样和过采样是对数据的down/sub-sample和up-sample，参考这里。其目的是调整数据量，或者做分类平衡（class balance）。

欠采样：只想用少量数据代表大量的原始数据。比如k-means里用mean代表一簇数据。Random forest也可以认为是对数据点和特征做down-sample。
过采样：生成新数据或重复采样。比如SMOTE，bootstrap。

观点2

过采样和欠采样是处理非平衡分类问题时的常用手段。

拿二元分类为例，如果训练集中阳性样本有1000个，阴性样本有10万个，两者比例为1：100严重失衡。为了一些模型的性能考虑，我们需要进行一些处理使得两者的比例尽可能接近。

过采样：对少的一类进行重复选择，比如我们对1000个阳性样本进行有放回的抽样，抽5万次（当然其中有很多重复的样本），现在两类的比例就变成了1：2，比较平衡。

欠采样：对多的一类进行少量随机选择，比如我们对10万个阴性样本进行随机选择，抽中2000个（当然原样本中很多样本未被选中），现在两类的比例就变成了1：2，比较平衡。

如果您觉得本文对您有帮助的话请点赞转发并关注。

关注

12
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
两分钟带你彻底明白机器学习中的过采样和欠采样是什么意思？

观点1是不同数据有不同定义，可分为空间/非空间数据。空间数据指空间上邻近的数据含有相关信息，可以用信号处理滤波的方法提取出这些相关信号，比如图像，声音。非空间数据指数据不是空间上的邻居，...
复制链接

扫一扫

The_syx CSDN认证博客专家 CSDN认证企业博客

码龄5年

82: 原创

31万+: 周排名

120万+: 总排名

6万+: 访问

: 等级

1210: 积分

54: 粉丝

61: 获赞

42: 评论

312: 收藏

私信

关注

热门文章

分类专栏

电子书 1篇
Keras图像打分 3篇

最新评论

《概率深度学习：使用Python，Keras和TensorFlow概率》附下载
qq_29780267: 找不到文件，且二维码已过期
《机器学习的随机矩阵方法》
CSDN-Ada助手: 非常感谢CSDN博主的分享，这篇博客《机器学习的随机矩阵方法》让我们了解到了关于随机矩阵方法在机器学习中的应用。我觉得下一篇博客可以继续探讨机器学习中的一些新兴技术，比如深度学习中的生成对抗网络（GAN）或者强化学习中的actor-critic算法。这样的技术文章对其他用户肯定也会很有帮助。相信CSDN博主会有更多读者关注和喜欢你的博客。期待你的下一篇技术文章！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
《概率深度学习：使用Python，Keras和TensorFlow概率》附下载
rqhuang: 概率深度学习，如何下载？谢谢！
Autograd：你没有使用过的最佳的机器学习库？
Harrii: 感谢，很容易就下好了
对抗验证概述
baidu_41754294: 0.906 还不能区分吗，够高的了。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。