机器学习经典模型：集成学习——bagging

最新推荐文章于 2024-04-03 08:00:00 发布

JessssseYule

最新推荐文章于 2024-04-03 08:00:00 发布

阅读量1.1k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/jesseyule/article/details/111997526

版权

机器学习专栏收录该内容

30 篇文章 45 订阅

订阅专栏

集成学习算法的基本思想是，通过将多个弱学习器组合在一起，从而实现一个效果更好的强学习器。

集成学习的优点可以从三个角度出发进行分析，统计上，单一的学习算法可以理解为在一个假设空间中找到一个最好的假设，但是训练数据较小的时候，学习算法可以找到很多符合训练数据的学习器，最终不论选择哪个学习器，在某种情况下都可能存在严重的偏差，于是就把多个假设集合起来，尽可能降低偏差。

计算上，很多学习算法都可能陷入局部最优，集成算法可以从多个起始点可以进行局部搜索，降低模型陷入局部最优的风险。

表示上，假设空间的任意一个假设都无法近似表示真实的情况，对于不同的假设条件，通过加权的形式扩大假设空间，从而使得学习算法能更进一步逼近真实函数。

集成学习有两种比较经典的分析思路，一种是bagging，每次从训练集中抽取n个训练样本构成子训练集，用于训练不同的学习器，学习器之间相互独立不影响，另一种是boosting，一边训练学习器，一边调整训练集，同时学习器之间也相互调整。

这次先主要谈谈bagging，bagging全称为boostrap aggregating，bootstrap就是统计学那个著名的估计方法，bagging就是利用bootstrap的思想，从训练数据有放回抽样获得n个子数据集，每个数据集独立同分布，然后再利用这n个子数据集训练出n个模型，这n个模型可以相同，也可以各不相同，在预测阶段，同时利用n个模型分析输入，如果是回归问题，则最终输出n个模型输出的平均值，如果是分类问题，则采用投票的方式选出概率最大的类别。

随机森林是bagging思想的具体应用，随机森林由多棵决策树构成，不同的决策树相互独立，具体的实现上，一开始也是利用bootstrap获得n个子数据集，基于这n个子数据集构建n棵决策树，需要注意的是，假设数据包含M个特征，那么构建决策树时只能随机选择m个特征（m小于M），另一方面，构建决策树后不需要剪枝，特征的数量m决定了不同决策树之间的相关性和拟合能力，m越小，树与树之间的相关性越小，可以认为不同的树从不同的角度出发进行分析，使模型的分析更为全面，可是拟合能力也会更弱，所以m是随机森林在构建时的唯一也是重要的参数。

JessssseYule

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
机器学习经典模型：集成学习——bagging

集成学习算法的基本思想是，通过将多个学习器组合，从而实现一个效果更好的集成学习器。集成学习的优点可以从三个角度出发进行分析，统计上，单一的学习算法可以理解为在一个假设空间中找到一个最好的假设，但是训练数据较小的时候，学习算法可以找到很多符合训练数据的学习器，最终不论选择哪个学习器，在某种情况下都可能存在严重的偏差，浴室就把多个假设集合起来，尽可能降低偏差。计算上，很多学习算法都可能陷入局部最优，集成算法可以从多个起始点可以进行局部搜索，降低模型陷入局部最优的风险。表示上，假设空间的任意一个假设都无法.
复制链接

扫一扫