1、套袋法Bagging
Bagging的弱学习器之间没有boosting那样的联系,它的特点是随机采样,一般是自主采样法(Bootstrap sampling):从训练集中裁剪固定个数的样本,但每采集一个样本后,都将样本放回。
(1) 从原始样本集中有放回的随机抽取n个训练样本,独立进行k轮抽取,得到k个训练集
(2) 独立训练k个模型(基学习器可以是:决策树、神经网络等)
(3) 分类问题: 投票法; 回归问题:取k个模型预测结果的均值
(4) 预测函数可以并行生成
1.1 袋外数据
- 对于一个样本,在m个样本的数据集中随机采样,每次被抽取到的概率是 1 m \frac{1}{m} m1,每次没有被抽取到的概率是 ( 1 − 1 m ) (1-\frac{1}{m}) (1−m1), 那么抽了m次都没被抽到的概率是 ( 1 − 1 m ) m (1-\frac{1}{m})^m (1−m1)m
- 当 m → ∞ m\rightarrow \infty m→∞时, ( 1 − 1 m ) m → 1 e ≈ 0.368 (1-\frac{1}{m})^m\rightarrow \frac{1}{e}\approx0.368 (1−m1)m→e1≈0.368, 也就是说,在bagging的每轮随机采样中,都有大约36.8%的样本没有被抽取到。
- 对于这部分大约36.8%的没有被采样到的数据,称为袋外数据(Out Of Bag),由于没有参与到训练,故可以用来检测模型的泛化能力