介绍
Bootstrap 聚合也称为Bagging。是一种在原始数据集上通过有放回抽样选取新数据集来训练分类器的集成技术。(i.e.新数据集是允许重复的)
流程图
一般会随机采集和训练集样本数m一样个数的样本。这样得到的采样集和训练集样本的个数相同,但是样本内容不同.
对于一个样本,它在某一次含m个样本的训练集的随机采样中,每次被采集到的概率是
1
m
\frac{1}{m}
m1。不被采集到的概率为
1
−
1
m
1-\frac{1}{m}
1−m1。如果m次采样都没有被采集中的概率是
(
1
−
1
m
)
m
(1-\frac{1}{m})^m
(1−m1)m。当m→∞时
(
1
−
1
m
)
m
(1-\frac{1}{m})^m
(1−m1)m≃0.368。也就是说,在bagging的每轮随机采样中,训练集中大约有36.8%的数据没有被采样集采集中。