机器学习笔记之集成学习(二)Bagging与随机森林

静静的喝酒

已于 2023-03-21 13:57:26 修改

阅读量828

点赞数 1

分类专栏：算法八股查漏补缺机器学习文章标签：机器学习集成学习人工智能 Bagging 随机森林

于 2023-03-14 16:13:47 首次发布

本文链接：https://blog.csdn.net/qq_34758157/article/details/129495136

版权

文章介绍了Bagging集成学习方法，特别是如何通过自助采样法降低方差。BootstrapSampling用于创建多个训练集，每个基学习器在这些子集上独立训练。随机森林是Bagging的一种变体，通过决策树并在划分属性时引入随机性。文中还讨论了随机森林在回归任务中的泛化误差表现，以及何时使用Bagging方法，特别指出方差较大的学习器（如决策树）适合使用Bagging来提高稳定性。

摘要由CSDN通过智能技术生成

机器学习笔记之集成学习——Bagging与随机森林

引言

引言

上一节介绍了模型泛化误差的组成——偏差、方差、噪声。本节将介绍降低方差的集成学习方法—— $\text{Bagging}$ 。

回顾：偏差、方差、噪声

学习模型的泛化误差由三部分组成：偏差、方差、噪声。其中噪声是数据集合自身属性，其噪声是客观存在的。因而，我们关注的目标更多在于偏差、方差的降低过程。

其中，偏差较高的核心原因在于：

训练过程过短导致的欠拟合( $\text{Underfitting}$ )现象：这种情况我们需要延长训练过程的执行时间；
模型的复杂度不够：即便训练过程执行了足够长的时间，但模型的拟合能力依然较差。此时需要提升模型的复杂程度；或者使用 $\text{Boosting,Stacking}$ 等集成学习方法。

相反，关于方差较高的核心原因在于：

即便是样本特征的简单扰动，也能够使学习模型产生复杂变化。也就是说，学习模型的复杂程度已经远超样本特征的复杂程度。针对该情况，可以尝试简化模型的复杂度。
针对学习模型的过拟合( $\text{Overfitting}$ )现象，可以使用各种预防过拟合的方式。其中集成学习方法中包含 $\text{Bagging,Stacking}$ 。

自助采样法( $\text{Bootstrapping Sampling}$ )

自助采样法主要针对模型训练过程中，关于数据集合 $\mathcal D$ 的使用使用不够完整导致的估计偏差。自助采样法的采样过程表示如下：
机器学习(周志华著)P27.

已知一个包含 $N$ 个样本的数据集合 $\mathcal D$ ，我们需要通过采样得到相应的数据集合 $\mathcal D'$ ；
随机从数据集合 $\mathcal D$ 中采出一个样本 $x$ ；
将 $x$ 复制，并将复制结果放入数据集合 $\mathcal D'$ 中；
将样本 $x$ 放回数据集合 $\mathcal D$ 中；
重复执行步骤 $2 - 4$ 共 $N$ 次，最终得到一个包含 $N$ 个样本的数据集合 $\mathcal D'$ 。

我们可以发现，这种自助采样方式存在：某些样本可能会在 $\mathcal D'$ 中出现若干次，而某些样本可能不会出现。那么样本在 $N$ 次采样中总是无法被采样的概率是： $\frac{1}{N})^N$ ，也就是说，如果原始集合 $\mathcal D$ 的样本数量趋近于无穷大，那么 $\mathcal D'$ 中始终不会从 $\mathcal D$ 采样的概率是：