有放回采样和无放回采样

最新推荐文章于 2025-04-27 23:05:53 发布

-柚子皮-

最新推荐文章于 2025-04-27 23:05:53 发布

阅读量3.2w

点赞数 3

分类专栏： BigData 文章标签：随机采样过采样欠采样

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/pipisorry/article/details/78092212

版权

随机采样分为欠采样和过采样，其中欠采样包括有放回的bagging方法和无放回的GBDT。bagging使用有放回采样，保留数据分布，允许数据在训练集中重复出现，而GBDT通过无放回采样体现不同小模型间的差异性。过采样则是通过复制少数类样本，可能导致过拟合。不同的采样方式对模型的训练和泛化能力有显著影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

随机采样

可以分为随机欠采样和随机过采样两种类型。

随机欠采样（下采样）

顾名思义即从多数类$S_maj$中随机选择少量样本$E$再合并原有少数类样本作为新的训练数据集，新数据集为$S_min+E$；

随机欠采样有两种类型分别为有放回和无放回两种，无放回欠采样在对多数类某样本被采样后不会再被重复采样，有放回采样则有可能。

放回子采样：bagging（bootstrap aggregation）方法

{有放回的随机采样，有一些样本被重复采样，从而在训练集中多次出现，有的则从未在训练集中出现，此则自助采样法}

对于一个样本，它在某一次含m个样本的训练集的随机采样中，每次被采集到的概率是1m。不被采集到的概率为1−1m。如果m次采样都没有被采集中的概率是(1−1m)m。当m→∞时，(1−1m)m→1e≃0.368。也就是说，在bagging的每轮随机采样中，训练集中大约有36.8%的数据没有被采样集采集中。对于这部分大约36.8%的没有被采样到的数据，我们常常称之为袋外数据(Out Of Bag, 简称OOB)。这些数据没有参与训练集模型的拟合，因此可以用来检测模型的泛化能力。[

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。