自助法（bootstrapping）划分数据集

最新推荐文章于 2023-12-18 12:54:04 发布

Answerlzd

最新推荐文章于 2023-12-18 12:54:04 发布

阅读量5.4k

点赞数 1

分类专栏：机器学习入门文章标签：自助法划分数据集 bootstrapping

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Answer3664/article/details/100021968

版权

机器学习入门专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一、前戏

在将数据集划分为训练集和测试集时，测试样本应从真实分布中独立同分布采样获得；同时测试集应该尽可能与训练集互斥，也就是测试样本尽量不要在训练集中出现、未在训练过程中使用过。

多数情况下采用留出法（hold-out），即从数据集中分层采样（stratified sampling）出约30%的数据作为测试集。分层采样的目的是要保持数据分布的一致性，避免划分过程引入额外的偏差。

在留出法中因为保留一部分样本用于测试了，导致训练的样本就少了。数据集的规模大点还好，当数据集比较少时，这样划分的方法就会浪费宝贵的数据资源。所以有什么方法能避免训练样本减少的影响，同时还能比较高效测试模型训练的好坏呢？

二、正题

“自助法”（bootstrapping）以自助采样（可重复采样、有放回采样）为基础。

假如一个数据集D有m个样本，看看训练集和测试集怎么选择：

训练集D'：每次从数据集D中随机选择一个样本，将这个样本复制一个放到D'中，然后再把原样本放回去（可放回）。重复操作m次。这样D'中就有m个样本了。这种采样方法有可能一个样本会被选择好多次，也有可能有的样本一次也不会被选择到。
测试集D-D'：测试集就是那些剩下的，没被选择的样本。

那么训练集D和测试集D'中共有多少数据呢？

可以看出数据集中样本在m次始终不被采样到的概率是 $(1-\frac{1}{m})^{m}$ ，取极限得：

$\lim_{m\rightarrow \propto }(1-\frac{1}{m})^{m}=\frac{1}{e}\approx 0.368$

所以数据集D中有36.8%的样本未出现在训练集中。

优缺点：

数据集小、难以划分训练\测试集
自助法能从初始数据集中产生多个不同的训练集，可以用于集成学习
自助法产生的训练集改变了初始数据集的分布，会引入估计偏差

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
自助法（bootstrapping）划分数据集

一、前戏在将数据集划分为训练集和测试集时，测试样本应从真实分布中独立同分布采样获得；同时测试集应该尽可能与训练集互斥，也就是测试样本尽量不要在训练集中出现、未在训练过程中使用过。多数情况下采用留出法（hold-out），即从数据集中分层采样（stratified sampling）出约30%的数据作为测试集。分层采样的目的是要保持数据分布的一致性，避免划分过程引入额外的偏差。在留出法中...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。