机器学习笔记之集成学习(二)Bagging与随机森林

文章介绍了Bagging集成学习方法,特别是如何通过自助采样法降低方差。BootstrapSampling用于创建多个训练集,每个基学习器在这些子集上独立训练。随机森林是Bagging的一种变体,通过决策树并在划分属性时引入随机性。文中还讨论了随机森林在回归任务中的泛化误差表现,以及何时使用Bagging方法,特别指出方差较大的学习器(如决策树)适合使用Bagging来提高稳定性。
摘要由CSDN通过智能技术生成

引言

上一节介绍了模型泛化误差的组成——偏差、方差、噪声。本节将介绍降低方差的集成学习方法—— Bagging \text{Bagging} Bagging

回顾:偏差、方差、噪声

学习模型的泛化误差由三部分组成:偏差、方差、噪声。其中噪声是数据集合自身属性,其噪声是客观存在的。因而,我们关注的目标更多在于偏差、方差的降低过程

其中,偏差较高的核心原因在于:

  • 训练过程过短导致的欠拟合( Underfitting \text{Underfitting} Underfitting)现象:这种情况我们需要延长训练过程的执行时间;
  • 模型的复杂度不够:即便训练过程执行了足够长的时间,但模型的拟合能力依然较差。此时需要提升模型的复杂程度;或者使用 Boosting,Stacking \text{Boosting,Stacking} Boosting,Stacking集成学习方法

相反,关于方差较高的核心原因在于:

  • 即便是样本特征的简单扰动,也能够使学习模型产生复杂变化。也就是说,学习模型的复杂程度已经远超样本特征的复杂程度。针对该情况,可以尝试简化模型的复杂度。
  • 针对学习模型的过拟合( Overfitting \text{Overfitting} Overfitting)现象,可以使用各种预防过拟合的方式。其中集成学习方法中包含 Bagging,Stacking \text{Bagging,Stacking} Bagging,Stacking

自助采样法( Bootstrapping Sampling \text{Bootstrapping Sampling} Bootstrapping Sampling)

自助采样法主要针对模型训练过程中,关于数据集合 D \mathcal D D的使用使用不够完整导致的估计偏差。自助采样法的采样过程表示如下:
机器学习(周志华著)P27.

  • 已知一个包含 N N N个样本的数据集合 D \mathcal D D,我们需要通过采样得到相应的数据集合 D ′ \mathcal D' D
  • 随机从数据集合 D \mathcal D D中采出一个样本 x x x
  • x x x复制,并将复制结果放入数据集合 D ′ \mathcal D' D中;
  • 将样本 x x x放回数据集合 D \mathcal D D中;
  • 重复执行步骤 2 − 4 2-4 24 N N N次,最终得到一个包含 N N N个样本的数据集合 D ′ \mathcal D' D

我们可以发现,这种自助采样方式存在:某些样本可能会在 D ′ \mathcal D' D中出现若干次,而某些样本可能不会出现。那么样本在 N N N次采样中总是无法被采样的概率是: ( 1 − 1 N ) N (1 - \frac{1}{N})^N (1N1)N,也就是说,如果原始集合 D \mathcal D D的样本数量趋近于无穷大,那么 D ′ \mathcal D' D中始终不会从 D \mathcal D D采样的概率是:
lim N → ∞ ( 1 − 1 N ) N = 1 e ≈

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

静静的喝酒

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值