机器学习——集成算法（二）

最新推荐文章于 2024-05-14 20:41:32 发布

MonkyK

最新推荐文章于 2024-05-14 20:41:32 发布

阅读量701

点赞数 2

分类专栏：机器学习文章标签：机器学习集成算法

本文链接：https://blog.csdn.net/chkay399/article/details/82117832

版权

机器学习专栏收录该内容

13 篇文章 10 订阅

订阅专栏

接着集成算法讲讲GBDT和Xgboost，二者的原理其实差不多的，他们都属于提升算法。梯度上升（Gradient Boosting）是说，在集成算法中每个弱决策树的生成都是依据损失函数的梯度方向。

提升算法，是找到找到最优解F(x)使得损失函数在训练集上期望（偏差）最小。损失函数若是回归则常取最小平方误差和绝对值误差；如果是回归则采用类似Logister的似然函数，属于指数损失函数。首先从常函数F0(x)开始

以贪心算法的思路扩展得到Fm(x)

这要求在函数空间内的最优化问题，在每次选择最优基函数时十分困难，这里使用梯度下降的方法近似计算（涉及到泛函分析，可以把f当做变量x，来类比求梯度的过程）。

这里是将样本数据代入基函数f(x)得到f(x1)、f(x2)...f(xn)，那么损失函数L(y，x)退化为向量L(y，f(x1))、L(y，f(x2))...L(y，f(xn))。为了求步长γ，使用线性搜索求最优步长：

求最优步长也是随着一次次迭代进行下去的，先计算伪残差（这个概念不懂）

使用数据计算拟合残差的基函数fm(x)，接下来就可以计算出最优步长了（属于一维优化问题？）

从而得到更新的模型

综上，整个过程通过阶段性的加性扩展和梯度下降手段，将函数估计转化为参数估计，来进行最优化求解（涉及到泛函分析力的一些知识，还不是特别清楚，等以后补上吧）。

GBDT，Gradient Boosting Decision Tree是指梯度上升决策树，里面的基函数自然就是决策树了（尤其是CART）。其中的主要过程和前面介绍的提升算法差不多，在第m步迭代中根据伪残差计算决策树tm(x)，

假设该决策树叶子节点数目为J，也就是把输入空间划分为J个不相交的区域 $R_{1m}$ ， $R_{2m}$ ... $R_{Jm}$ ，式子中的 $b_{jm}$ 是样本所在区域 $R_{jm}$ 的预测值，I(x)是示性符号。得到第m步的分类器

其中的最优步长γm由线性搜索计算出来

更进一步，对树的每个区域分布计算步长，从而系数 $b_{jm}$ 被合并到步长中（还不懂怎么操作的）

Xgboost基本的原理与上面推导的类似，但是有对目标函数taylor展开利用其二阶导的信息（GBDT只使用了一阶导去拟合）。设目标函数如下

利用Taylor展开式

令损失函数的一阶导和二阶导为

则目标函数展开为

现在对目标函数化简

这里的权值w是指每个叶节点的权值，样本落在叶节点q中，则定义f为 $f_{t}(x)=w_{q(x)}$ 。一个决策树的核心是叶子权值和树结构，项目这个式子中，w即为权值，q即为树结构（即最终哪个样本落在哪个叶子节点上的结构）

上式子中，决策树的复杂度可考虑叶子结点数和叶权值，可以将正则惩罚项定义为（这种不是唯一的）

对于上面已经化简的式子，为了继续化简，我们定义

目标函数变为

对w求偏导

回代到原式子

这样我们只要枚举样本集中的可分点，选择增益最大的划分，来构建决策树。

GBDT和Xgboost比较，GBDT一般以CART为基分类器，而Xgboost还可以支持LR等现行分类器，这些分类器本身就是带着L1和L2正则化惩罚项的。GBDT是通过对树进行正则化技术来降低过拟合风险，如剪枝等减少叶节点、限制树层数的措施；而Xgboost是在目标函数中加入正则化项（包含了叶节点数和叶权值）来控制模型复杂度。Xgboost还借鉴随机森林，支持列抽样，可以降低过拟合风险。另外Xgboost虽然是串联的模型，但是在计算时是可以并行进行的，大大提高了计算速率。

下面列出各集成算法的优缺点。这里RF算是属于Bagging，其他三个属于Boosting，其中Adaboost属于传统范畴，而GBDT和Xgboost则与传统boosting有较大区别（算是GB算法吧），GB的每一轮迭代都是为了减少残差，是在残差减小的方向上建立的模型。

Bagging主要关注降低方差，因此它在不剪枝的决策树、神经网络等学习器上效用更为明显；Boosting主要关注降低偏差，因此Boosting能基于泛化性能相当弱的学习器构建出很强的集成。

方差度量了同等大小的训练集的变动导致学习性能的变化，刻画了数据扰动所导致的影响；偏差指的是算法的期望预测与真实预测之间的偏差程度，反应了模型本身的拟合能力。