机器学习总结二：boosting之GBDT、XGBT原理公式推导

yunpeng.zhou

已于 2023-10-20 09:34:19 修改

阅读量2.6k

点赞数 2

分类专栏：机器学习文章标签：算法 boosting

于 2022-09-12 21:44:24 首次发布

本文链接：https://blog.csdn.net/a1314_521a/article/details/126823268

版权

机器学习专栏收录该内容

10 篇文章

订阅专栏

本文详细介绍了Boosting方法中的决策树、GBDT和XGBoost原理，包括损失函数计算、模型构建流程、泰勒展开优化以及XGBoost中正则化的运用。通过实例和公式推导，深入剖析了如何通过负梯度和结构分数求解最优模型。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、Bagging之决策树、随机森林原理与案例

二、boosting之GBDT、XGBT原理推导与案例

三、SVM原理推导与案例

四、逻辑回归与反欺诈检测案例

五、聚类之K-means

Boosting

1. 简介

通过在数据上构建多个弱评估器，汇总所有弱评估器的建模结果，以取得比单个模型更好的分类或回归表现。
加法模型，前向分步计算学习。

2. 基本元素

弱评估器f(x)：一般为决策树(cart树)，不同boosting算法建立新树的过程不同
损失函数L(x,y)：衡量模型预测结果与真实结果的差异
集成结果H(x)：汇总所用弱评估器的结果进行输出

3. 算法提升流程

1. 依据上一个弱评估器集成的结果，计算损失函数L(x,y)

$L(y,\sum_{k=1}^{t-1} f_k(x))$

1. 使用L(x,y)自适应的影响下一个弱评估器的构建

$f_{k=t}(x)$

1. 更新弱评估器集成的结果

$H(x)=\sum_{k=1}^{t-1} f_k(x)+f(x)_t$

注意：

各种boosting算法的不同之处在于使用不同的方式影响后续评估器的构建

4. GBDT原理

4.1 优化目标：新建的树使目标函数越来越小
4.2 泰勒一阶展开式

$f(x+\triangle x) \approx f(x)+f'(x)\triangle x$

4.3 GBDT目标函数求解过程
1. 设定目标函数
  $=\sum_{i=1}^nL(y_i,\widehat{y_i})$
  
  $n : 所有样本的个数； i : 代表每个样本$
2. 代入树模型
  $=\sum_{i=1}^nL(y_i,f(x_i)_{t-1}+f(x_i)_t)$
  
  $f(x_i)_{t-1}:代表前t-1棵树的结果；f(x_i)_t :代表本轮要新建的树模型$
3. 将目标函数进行一阶泰勒展开
  $\approx \sum_{i=1}^n[L(y_i,f(x_i)_{t-1})+ \frac{\delta'L(y_i,f(x_i)_{t-1})}{\delta f(x_i)_{t-1}}*f(x_i)_t]$
  
  $f(x_i)_t:相当于泰勒泰勒展开式中的\triangle x$
4. 因为L(y_i,f(x_i)_{t-1})是定值，新树要使obj减小的必要条件为：
  $\frac{\delta'L(y_i,f(x_i)_{t-1})}{\delta f(x_i)_{t-1}}*f(x_i)_t \leq 0$
5. 上述不等式成立的充分非必要条件为：
  $f(x_i)_t = -\frac{\delta'L(y_i,f(x_i)_{t-1})}{\delta f(x_i)_{t-1}}$
  
  $即建立的新树拟合结果为前 t - 1 轮预测结果对应的目标函数的负梯度$
6. 最终新树模型生成要求
  - 新树模型拟合上一轮结果的负梯度
  - 使用基尼系数或信息熵，进行最佳分裂点

5. XGBT原理

5.1 优化目标：新建的树使目标函数越来越小
5.2 泰勒二阶展开式

$f(x+\triangle x) \approx f(x)+f'(x)\triangle x + \frac{1}{2} f''(x)\triangle x^2$

5.3 XGBT目标函数求解过程
1. 设定目标函数
  $=\sum_{i=1}^nL(y_i,\widehat{y_i})+\sum_{k=1}^t\Omega(f_k)$
  
  $i : 代表每个样本； n : 代表样本个数； k : 代表每一个树模型 Ω ：代表第 K 颗树的复杂度$
2. 代入树模型f(x)
  $=\sum_{i=1}^nL(y_i,f(x_i)_{t-1}+f(x_i)_t)+\sum_{k=1}^{t-1}\Omega(f_k)+\Omega f_t$
3. 使用二阶泰勒展开优化目标函数
  $\approx \sum_{i=1}^n[L(y_i,f(x_i)_{t-1})+ \frac{\delta'L(y_i,f(x_i)_{t-1})}{\delta f(x_i)_{t-1}}*f(x_i)_t+\frac{1}{2}\frac{\delta''L(y_i,f(x_i)_{t-1})}{\delta f(x_i)_{t-1}}*f^2(x_i)_t]+\sum_{k=1}^{t-1}\Omega(f_k)+\Omega f_t$
4. 公式太长，看着太复杂，设定：
  $g_i= \frac{\delta'L(y_i,f(x_i)_{t-1})}{\delta f(x_i)_{t-1}}$
  
  $h_i= \frac{\delta''L(y_i,f(x_i)_{t-1})}{\delta f(x_i)_{t-1}}$
  
  $\approx \sum_{i=1}^n[L(y_i,f(x_i)_{t-1})+ g_i*f(x_i)_t+\frac{1}{2}h_i*f^2(x_i)_t]+\sum_{k=1}^{t-1}\Omega(f_k)+\Omega f_t$
  
  $\sum_{k=1}^{t-1}\Omega(f_k):前t-1颗树的模型夫复杂度，定值；L(y_i,f(x_i)_{t-1})：第t-1轮迭代后的损失，定值$
5. 去除常数项（不影响求解最小目标函数）
  $\approx \sum_{i=1}^n[g_i*f(x_i)_t+\frac{1}{2}h_i*f^2(x_i)_t]+\Omega f_t$
6. 每颗树模型的模型结果为叶子节点上的权重
  $f(x_i)_t=w_{q(x_i)}$
  
  $w_{q(x_i)}:样本x_i所在树模型叶子节点的权重$
  
  $\approx \sum_{i=1}^n[g_i*w_{q(x_i)}+\frac{1}{2}h_i*w^2_{q(x_i)}]+\Omega f_t$
7. 设定树模型复杂度
  $\Omega f_t =\gamma T+\frac{1}{2}\lambda\sum_{j=1}^{T}|w_j|^2$
$T : 叶子节点的个数$

$Wj ：每个叶子的权重的平方， L 2 正则化$

$\approx \sum_{i=1}^n[g_i*w_{q(x_i)}+\frac{1}{2}h_i*w^2_{q(x_i)}]+\gamma T+\frac{1}{2}\lambda\sum_{j=1}^{T}|w_j|^2$
1. 不同样本落在同一个叶子节点上预测得分是一样的
  $\sum_{i=1}^nw_{q(x_i)}=\sum_{j=1}^Tw_j$
  
  $\sum_{i=1}^ng_i=\sum_{i\in I_j}g_i- 每一个叶子节点上样本的一阶导数和$
  
  $\sum_{i=1}^nh_i=\sum_{i\in I_j}h_i-每一个叶子节点上样本的二阶导数和$
  
  $\approx \sum_{j=1}^T[w_j(\sum_{i\in I_j}gi)+\frac{1}{2}w^2_j(\sum_{i\in I_j}hi)]+\gamma T+\frac{1}{2}\lambda\sum_{j=1}^{T}|w_j|^2$
2. 合并模型复杂度和损失函数
  $\approx \sum_{j=1}^T[w_j(\sum_{i\in I_j}gi)+\frac{1}{2}w^2_j((\sum_{i\in I_j}hi)+\lambda))]+\gamma T$
3. 简化目标函数
  $设G_j=\sum_{i\in I_j}gi 叶子节点J所包含的所用样本一阶导累计之和，是常量$
  
  $设H_j=\sum_{i\in I_j}hi 叶子节点J所包含的所用样本二阶导累计之和，是常量$
  
  $\approx \sum_{j=1}^T[w_jG_j+\frac{1}{2}w^2_j(H_j+\lambda)]+\gamma T$
4. 对wj求一阶导，求obj极值（最小二乘法）
  $\frac{\delta'(w_jG_j+\frac{1}{2}w^2_j(H_j+\lambda))}{\delta w_j}=G_j+w_j(H_j+\lambda)=0$
  
  $得：w_j=-\frac{G_j}{H_j+\lambda}$
5. 简化后obj带入wj
  $\approx \sum_{j=1}^T[w_jG_j+\frac{1}{2}w^2_j(H_j+\lambda)]+\gamma T=-\frac{1}{2}\sum_{j=1}^T\frac{G^2_j}{H_j+\lambda}+\gamma T$
  
  $最终目标函数只与一阶导和二阶导、树的节点个数相关, 又叫结构分数$
5.4 使用贪心思想求解最优的一棵新树，即每一节点分叉最优
1. 某个节点是否继续分叉，计算分叉后的节点结构分数是否小于分裂前，类似信息增益
$-\frac{1}{2}\frac{G^2_L}{H_L+\lambda}+\gamma -\frac{1}{2}\frac{G^2_R}{H_R+\lambda}+\gamma-(-\frac{1}{2}\frac{G^2_l+G^2_R}{H_L+H_R+\lambda}+\gamma)<0$
1. 去除符号
  $\frac{1}{2}[\frac{G^2_L}{H_L+\lambda} +\frac{G^2_R}{H_R+\lambda}-\frac{G^2_l+G^2_R}{H_L+H_R+\lambda}]-\gamma>0$
附录：xgbt手动推导
原作者链接（https://zhuanlan.zhihu.com/p/511130662）