Bagging & Boosting

最新推荐文章于 2024-04-03 08:00:00 发布

呼啦圈.

最新推荐文章于 2024-04-03 08:00:00 发布

阅读量219

点赞数

文章标签：机器学习决策树

本文链接：https://blog.csdn.net/qq_40131486/article/details/106091283

版权

Bagging

从原始样本集中使用Bootstraping的方法随机抽取n个训练样本，共进行k轮抽取，得到k个训练集。（有些样本可能会被多次抽取到，有些样本可能一次都没有被抽中，k个训练集之间是相互独立的）
每个训练集得到一个模型，k个训练集共得到k个模型。（可以根据具体问题采用不同的分类或回归方法，如决策树、感知机等）
对于分类问题，将k个模型采用投票的方式得到分类结果；对于回归问题，计算上述模型的均值作为最后的结果。（所有模型的重要性相同）
Bagging中的模型是强模型，偏差低，方差高，所以目标是降低方差。在Bagging中，每个模型的方差和偏差近似相同，但是互相的相关性不太高，因此一般不能降低偏差，但能一定程度上降低方差。
代表方法：随机森林

Boosting

为训练集中的每个样本建立权重 $w_i$ ，当某个样本被误分类的概率很高时，需要加大该样本的权重。
模型迭代过程中，每一步迭代都是一个弱分类器。我们需要使用某种策略将其组合，作为最终模型。
Boosting中每个模型是弱模型，偏差高，方差低。目标是降低偏差。Boosting的基本思想是用贪心法最小化损失函数，显然能降低偏差，但是通常模型的相关性很强，因此不能显著降低方差。
代表方法：Adaboost、GBDT、XGBoost

Adaboost

AdaBoost (Adaptive Boosting，自适应增强)。它的自适应在于：前一个基分类器分错的样本的权重会得到加强，加权后的全体样本再次被用来训练下一个基本分类器。同时，在每一轮中加入一个新的弱分类器，直到达到某个预定的足够小的错误率或达到预先指定的最大迭代次数。
Alt

GBDT

GBDT (Gradient Boost Decision Tree，梯度提升决策树)。每一次的计算是都为了减少上一次的残差，进而在残差减少（负梯度）的方向上建立一个新的模型。

Boosting由多个相关联的决策树联合决策，什么叫相关联？举个栗子

有一个样本[数据->标签]是：[(2，4，5)-> 4]
第一棵决策树用这个样本训练的预测为3.3
那么第二棵决策树训练时的输入，这个样本就变成了：[(2，4，5)-> 0.7]
也就是说，下一棵决策树输入样本会与前面决策树的训练和预测相关

Alt

和AdaBoost一样，GBDT也是重复选择一个表现一般的模型并且每次基于先前模型的表现进行调整。不同的是，AdaBoost是通过提升错分样本的权重来定位模型的不足，而GBDT是通过算梯度（gradient）来定位模型的不足。因此相比AdaBoost，GBDT可以使用更多种类的目标函数，而当目标函数是均方误差时，计算损失函数的负梯度值在当前模型的值即为残差。

Xgboost

原始的GBDT算法基于经验损失函数的负梯度来构造新的决策树，在决策树构建完成后再进行剪枝。GBDT算法只利用了一阶的导数信息，而XGBoost对损失函数做了二阶的泰勒展开，并在目标函数之外加入了正则项对整体求最优解，用以权衡目标函数的下降和模型的复杂程度，避免过拟合。所以不考虑细节方面，两者最大的不同就是目标函数的定义。 XGBoost在决策树构建阶段就加入了正则项，即
$Obj^{(t)} = \sum_{i=1}^nl(y_i, \hat{y_i}^{(t-1)} + f_t(x_i))) + \Omega(f_t) + constant$

GBDT与Xgboost的区别与联系

基分类器的选择：传统GBDT以CART作为基分类器，Xgboost还支持线性分类器，此时的Xgboost相当于带L1和L2正则化项的逻辑回归（分类问题）或者线性回归（回归问题）。
二阶泰勒展开：GBDT在优化时只用到一阶导，而Xgboost则对代价函数进行了二阶泰勒展开，同时用到了一阶导和二阶导。顺便提一下，Xgboost工具支持自定义损失函数，只要函数可一阶和二阶求导。
偏差-方差权衡：Xgboost在目标函数中加入了正则项，用于控制模型的复杂度。正则项包含了树的叶子节点个数、每个叶子节点上输出分数的L2的模的平方和。从偏差-方差权衡的角度来讲，正则项降低了模型的方差，使学习出来的模型更加简单，防止过拟合，这也是Xgboost优于传统GBDT的一个特性。
列抽样：Xgboost借鉴了随机森林的做法，支持列抽样，不仅能降低过拟合，还能减少计算，这也是Xgboost优于传统GBDT的一个特性。
缺失值处理：Xgboost考虑了训练数据为稀疏值的情况，可以为缺失值或者指定的值指定分支的默认方向，这能大大提升算法的效率。即对于特征有缺失值的样本，Xgboost可以自动学习出它的分裂方向。
支持并行：Boosting不是一种串行的结构吗?怎么并行的？注意Xgboost的并行不是tree粒度的并行，Xgboost也是一次迭代完成后才能进行下一次迭代的（第 n 次迭代的损失函数里包含了前面 n-1 次迭代的预测值）。Xgboost的并行是在特征粒度上的。我们知道，决策树的学习最耗时的一个步骤就是对特征的值进行排序（因为要确定最佳分割点），Xgboost在训练之前，预先对数据进行了排序，然后保存为block(块)结构，后面的迭代中重复地使用这个结构，大大减小计算量。这个block结构也使得并行成为了可能，在进行节点分裂时，需要计算每个特征的增益，最终选择增益最大的那个特征去做分裂，那么各个特征的增益计算就可以开多线程进行。

Bagging和Boosting的异同

算法	样本选择	样本权重	预测函数	计算模式	适用模型
Bagging	随机有放回抽样	权重不变	所有预测函数权重相等	并行计算	适用于过拟合的单一模型
Boosting	训练集不变	根据错误率调整样本权重，错误率越大样本权重越大	误差越小，预测函数权重越大	顺序计算	适用于欠拟合的单一模型

Bagging是并行计算，而Boosting是顺序计算
Alt

呼啦圈.

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Bagging & Boosting

目录BaggingBoostingAdaboostGBDTXgboostBagging和Boosting的异同集成学习中，主要分为Bagging、Boosting以及Stacking，由于Stacking在项目中并不常用，在此我们就不展开赘述。Bagging从原始样本集中使用Bootstraping的方法随机抽取n个训练样本，共进行k轮抽取，得到k个训练集。（有些样本可能会被多次抽取到，有些样本可能一次都没有被抽中，k个训练集之间是相互独立的）每个训练集得到一个模型，k个训练集共得到k个模型。（可
复制链接

扫一扫