对于一个样本,它在某一次含m
m
个样本的训练集的随机采样中,每次被采集到的概率是1m。不被采集到的概率为1−1m
1
−
1
m
。如果m
m
次采样都没有被采集中的概率是(1−1m)m。当m→∞
m
→
∞
时,(1−1m)m→1e≃0.368
(
1
−
1
m
)
m
→
1
e
≃
0.368
。也就是说,在bagging的每轮随机采样中,训练集中大约有36.8%的数据没有被采样集采集中。
对于这部分大约36.8%的没有被采样到的数据,我们常常称之为袋外数据(Out Of Bag, 简称OOB)。这些数据没有参与训练集模型的拟合,因此可以用来检测模型的泛化能力。
3.算法流程
输入为样本集D={(x1,y1),(x2,y2),...(xm,ym)}
D
=
{
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
.
.
.
(
x
m
,
y
m
)
}
,弱学习器算法, 弱分类器迭代次数T。