自助采样 (bootstrap sampling)是一种抽样方法,常用在机器学习中。给定 m 个样本的数据集 D, 我们对他进行采样产生数据集
D,
,每次随机从D 中挑选一个样本,将其拷贝放入
D,
,然后再将该样本放回初始数据集 D 中,使得该样本在下次采样中仍有可能被采样到,这个过程执行m次以后,我们就得到了包含 m个样本的数据集
D.
,这就是数据采样的结果。
m 次采样中始终不被采到的概率是
(1−1m)m
,取极限得到
limm→∞(1−1m)m=1e≈0.368
即通过自助采样,初始数据集中大约有 36.8% 的样本未出现在采样数据集 D, 中。