bootstrap:抽出来、记录下来、放回去
bootstrapping:一个统计工具,对同一份数据集,进行不同的重采样(re-sample)以模拟不同的数据集出来,避免了 cross-validation 中数据量的减少。
在集成学习(ensemble learning)中,我们所要集成的对象是不同的分类器,分类器间的差异性(diversity)是集成学习成功的关键要素,差异性主要有以下来源:
(1)模型差异: g1∈H1 , g2∈H2 , ⋯ , gT∈HT
(2)参数的差异:对 GD 而言 η=0.001,0.01,0.1,…,10
(3)算法的随机性(randomness)
(4)数据随机性(randomness)
而 bootstrapping 就是一种用来产生数据随机性的统计工具。
bootstrap 的采样过程属于有放回采样(uniformly with replacement)
bootstrap sample
D~t
:re-sample
N
samples from
也不一定要求,新的数据集要保持和原始数据集一样的规模
N
,可以是任意的
Bootstrap AGgregation 就被称为 BAGging 算法。