XGBoost算法介绍

故园稻香

已于 2022-06-28 10:47:28 修改

阅读量107

点赞数

文章标签：机器学习决策树算法集成学习

于 2022-06-15 18:06:53 首次发布

本文链接：https://blog.csdn.net/sjtulgl/article/details/125298438

版权

文章目录

Decision Tree Ensemble 决策树集成原理
Tree Boosting算法
Model Complexity 处理正则化项
Learn the tree structure 构造第t棵树模型

Decision Tree Ensemble 决策树集成原理

集成模型的最终预测结果为每一颗树的预测结果之加和：

$\hat{y_i}=\sum_{k=1}^nf_k(x_i)$

Additive Training：

$\hat{y_i}^{(0)}=0$

$\hat{y_i}^{(1)}=f_1(x_i)=\hat{y_i}^{(0)}+f_1(x_i)$

$\hat{y_i}^{(2)}=f_1(x_i)+f_2(x_i)=\hat{y_i}^{(1)}+f_2(x_i)$

$. . . . . .$

$\hat{y_i}^{(t)}=\sum_{k=1}^tf_k(x_i)=\hat{y_i}^{(t-1)}+f_t(x_i)$

Tree Boosting算法

定义一个目标函数（包含损失函数+正则化项），然后最优化它；
在训练第t个模型时，第t-1个及之前的模型已经确定。

$\begin{aligned} obj^{(t)} &=\sum_{i=1}^nl(y_i,\hat{y_i}^{(t)})+\sum_{i=1}^t\omega(f_i)\\ &=\sum_{i=1}^nl(y_i,\hat{y_i}^{(t-1)}+f_t(x_i))+\sum_{i=1}^{t-1}\omega(f_i)+\omega(f_t)\\ &=\sum_{i=1}^nl(y_i,\hat{y_i}^{(t-1)}+f_t(x_i))+\omega(f_t)+C1 \end{aligned}$

二阶泰勒展开公式：

$f(x+\Delta x)\approx f(x)+f^{'}(x)\Delta x+\frac{1}{2}f^{''}(x)\Delta x^2$

$l(y_i,\hat{y_i}^{(t-1)}+f_t(x_i))=l(y_i,\hat{y_i}^{(t-1)})+g_if_t(x_i)+\frac{1}{2}h_if_t^2(x_i)$

其中: $g_i=(\frac{\partial l}{\partial\hat{y_i}})^{(t-1)}, h_i=(\frac{\partial^2l}{\partial \hat{y_i}^2})^{(t-1)}$

带入目标函数中，简化得：

$\begin{aligned} obj^{(t)} &=\sum_{i=1}^nl(y_i,\hat{y_i}^{(t-1)}+f_t(x_i))+\omega(f_t)+C1\\ &=\sum_{i=1}^nl(y_i,\hat{y_i}^{(t-1)})+\sum_{i=1}^n[g_if_t(x_i)+\frac{1}{2}h_if_t^2(x_i)]+\omega(f_t)+C1\\ &=\sum_{i=1}^n[g_if_t(x_i)+\frac{1}{2}h_if_t^2(x_i)]+\omega(f_t)+C2\\ \end{aligned}$

扔掉常数项，简化得：

$obj^{(t)}=\sum_{i=1}^n[g_if_t(x_i)+\frac{1}{2}h_if_t^2(x_i)]+\omega(f_t)$

Model Complexity 处理正则化项

将第t棵树表示为：

$f_t(x)=\omega_{q(x)}, \omega\in R^T$

其中， $\omega$ 为叶子节点得分向量， $q (x)$ 为确定每个样本被划分到哪个叶子节点中的函数，T为叶子节点数。

设第t棵树的正则化项表达式为：

$\omega(f)=\gamma T+\frac{1}{2}\lambda\sum_{j=1}^T\omega_j^2$

$I_j$ 为第j个叶子节点的样本集合：

$I_j=\lbrace i|q(x_i)=j\rbrace$

带入目标函数（将按样本累加变换为按叶子节点累加），简化得：

$\begin{aligned} obj^{(t)} &=\sum_{i=1}^n[g_if_t(x_i)+\frac{1}{2}h_if_t^2(x_i)]+\omega(f_t)\\ &=\sum_{i=1}^n[g_i\omega_i+\frac{1}{2}h_i\omega_i^2]+\gamma T+\frac{1}{2}\lambda\sum_{j=1}^T\omega_j^2\\ &=\sum_{j=1}^T[(\sum_{i\in I_j}g_i)\omega_j+\frac{1}{2}(\sum_{i\in I_j}h_i+\lambda)\omega _j^2]+\gamma T\\ &=\sum_{j=1}^T[G_j\omega_j+\frac{1}{2}(H_j+\lambda)\omega _j^2]+\gamma T \end{aligned}$