1.在数据抽样的时候,因为是有放回的采样,有很多条样本没有被选到,经过以下计算,
没条样本大概有百分之三十的概率是没有被采样的。
2.对于这些没有被采样到的数据(oob),我们希望能够得到利用当作验证集
当然对于单颗决策树没有必要用oob数据验证,我们可以用oob数据验证强学习器(评估)。
做法:假如在随机采样过程中第n条样本没有被g2,g3,g4采样到,我们就可以用第n条样本对整个强学习器做预测,然后得到第n条样本真实值与预测值的错误率。
那么我们就可以得到整体的强学习器对袋外数据的错误率,这个错误率就可以当成训练集验证集评估的指标,错误率越高越不好。
错误率计算公式
当然这个oob数据也可以当成训练集数据进行训练。所以有了oob袋外数据就不需要交叉验证(切分训练集)