二十九.集成学习之XGBoost原理和实现

最新推荐文章于 2024-07-06 00:01:14 发布

stackooooover

最新推荐文章于 2024-07-06 00:01:14 发布

阅读量84

点赞数

分类专栏：机器学习实战机器学习理论基础

本文链接：https://blog.csdn.net/weixin_36128607/article/details/118805404

版权

机器学习理论基础同时被 2 个专栏收录

39 篇文章 8 订阅

订阅专栏

机器学习实战

31 篇文章 4 订阅

订阅专栏

1.XGBoost与GBDT的不同点

(1)GBDT只支持CART决策树，XGBoost支持其他学习器。
(2)XGBoost的损失函数相当于GBDT加正则化项。
(3)GBDT只对误差部分的负梯度(一阶泰勒展开)拟合，二XGBoost对误差部分进行二阶泰勒展开，拟合更准确。
(4)缺失值的处理不同。

2.XGBoost损失函数推导与优化

GBDT的损失函数为：
$L_{t}=\sum_{i=1}^{m}L(y_{i},f_{t-1}(x_{i})+h_{t}(x_{i}))$
XGBoost的损失函数相当于GBDT的损失加上了正则化项：
$\begin{aligned} L_{t}=&\sum_{i=1}^{m}L(y_{i},f_{t-1}(x_{i})+h_{t}(x_{i}))+\Omega(h_{t}(x_{i})) \\ &= \sum_{i=1}^{m}L(y_{i},f_{t-1}(x_{i})+h_{t}(x_{i}))+\gamma J+\frac{\lambda }{2}\sum_{j=1}^{J}w_{t,j}^{2} \end{aligned}$
其中， $\gamma ,\lambda$ 为正则化系数， $J$ 为叶节点个数， $w_{t,j}$ 就是GBDT中的 $c_{t,j}$ ，为叶节点区域 $R_{t,j}$ 的最佳拟合值。
根据二阶泰勒展开式：
$f(x+\Delta x)\approx f(x)+f^{'}(x)\Delta x+\frac{1}{2}f^{''}(x)\Delta x^{2}$
XGBoost的损失函数可以展开为：
$L_{t}\approx \sum _{i=1}^{m}[L(y_{i},f_{t-1}(x_{i}))+\frac{\partial L(y_{i},f_{t-1}(x_{i}))}{\partial f_{t-1}(x_{i})}h_{t}(x_{i})+\frac{1}{2}\frac{\partial^2 L(y_{i},f_{t-1}(x_{i}))}{\partial^2 f_{t-1}(x_{i})}h_{t}^{2}(x_{i})]+\gamma J+\frac{\lambda }{2}\sum_{j=1}^{J}w_{t,j}^{2}$
为了方便计算，将第 $i$ 个样本在第 $t$ 轮学习中的一阶导和二阶导分别记作：
$g_{t,i}=\frac{\partial L(y_{i},f_{t-1}(x_{i}))}{\partial f_{t-1}(x_{i})}\\ h_{t,i}=\frac{\partial^2 L(y_{i},f_{t-1}(x_{i}))}{\partial^2 f_{t-1}(x_{i})}$
损失函数更新为：
$L_{t}\approx \sum _{i=1}^{m}[L(y_{i},f_{t-1}(x_{i}))+g_{t,i}h_{t}(x_{i})+\frac{1}{2}h_{t,i}h_{t}^{2}(x_{i})]+\gamma J+\frac{\lambda }{2}\sum_{j=1}^{J}w_{t,j}^{2}$
上式中， $L(y_{i},f_{t-1}(x_{i}))$ 为上一轮的损失，是已知的常数，忽略其对最小化结果不产生影响，因此，上式可继续更新为：
$L_{t}\approx \sum _{i=1}^{m}[g_{t,i}h_{t}(x_{i})+\frac{1}{2}h_{t,i}h_{t}^{2}(x_{i})]+\gamma J+\frac{\lambda }{2}\sum_{j=1}^{J}w_{t,j}^{2}$
在第 $t$ 轮中，样本 $x_{i}$ 通过弱学习器 $h_{t}(x_{i})$ 被分配到了叶节点 $R_{t,j}$ ，输出为 $w_{t,j}$ ，因此，可以用 $w_{t,j}$ 代替 $h_{t}(x_{i})$ ：
$\begin{aligned} L_{t}&= \sum _{j=1}^{J}[\sum_{x_{i}\in R_{t,j}}g_{t,i}w_{t,j}+\frac{1}{2}\sum_{x_{i}\in R_{t,j}}h_{t,i}w_{t,j}^{2}]+\gamma J+\frac{\lambda }{2}\sum_{j=1}^{J}w_{t,j}^{2}\\ &= \sum _{j=1}^{J}[\sum_{x_{i}\in R_{t,j}}g_{t,i}w_{t,j}+\frac{1}{2}\sum_{x_{i}\in R_{t,j}}(h_{t,i}+\lambda )w_{t,j}^{2}]+\gamma J \end{aligned}$
为了方便计算，将第 $i$ 个样本在第 $t$ 轮叶子节点中的一阶导和二阶导分别记作：
$G_{t,i}=\sum_{x_{i}\in R_{t,j}}g_{t,i}\\ H_{t,i}=\sum_{x_{i}\in R_{t,j}}h_{t,i}$
原式更新为：
$L_{t}= \sum _{j=1}^{J}[G_{t,i}w_{t,j}+\frac{1}{2}(H_{t,i}+\lambda )w_{t,j}^{2}]+\gamma J$

3.损失函数求解

(1)求业绩点的最佳拟合值 $w_{t,j}$

在GBDT中，叶节点的最佳拟合值 $c_{t,j}$ 需要分两步求出：
先求出 $J$ 个叶子节点，再求出每个叶子节点的最佳拟合值。
由于XGBoost的损失函数中只有 $w_{t,j}$ 一个未知量，因此可以直接求出其拟合值：
$\frac{\partial L_{t}}{\partial w_{t,i}}=G_{t,i}+(H_{t,i}+\lambda )w_{t,i}=0\\ \Rightarrow w_{t,i}=-\frac{G_{t,i}}{H_{t,i}+\lambda }$

(2)弱学习器的分裂方式

GBDT中，CART决策树的分裂依据是遍历所有特征的所有分割点，选择方差最小或基尼系数最小的点进行分裂。
XGBoost的分裂依据是选择使损失函数最小的点进行分裂。具体做法是：
首先将 $w_{t,j}$ 的值带入损失函数中可得：
$\begin{aligned} L_{t}=&\sum_{j=1}^{J}[-\frac{G_{t,i}^{2}}{H_{t,i}+\lambda }+\frac{1}{2}\frac{G_{t,i}^{2}}{H_{t,i}+\lambda }]+\gamma J \\ &= -\frac{1}{2}\frac{G_{t,i}^{2}}{H_{t,i}+\lambda }+\gamma J \end{aligned}$
假如现在依据某个分割点将决策树分割为左右子树，则分裂后的损失为：
$-(\frac{1}{2}\frac{G_{L}^{2}}{H_{L}+\lambda }+\frac{1}{2}\frac{G_{R}^{2}}{H_{R}+\lambda })+\gamma (J+1)$
未分裂时的损失为：
$-\frac{1}{2}\frac{(G_{L}+G_{R})^{2}}{H_{L}+H_{R}+\lambda}+\gamma J$
未分裂的损失减去分裂后的损失，可得分裂后损失减少值：
$-\frac{1}{2}\frac{(G_{L}+G_{R})^{2}}{H_{L}+H_{R}+\lambda}+\gamma J+\frac{1}{2}\frac{G_{L}^{2}}{H_{L}+\lambda }+\frac{1}{2}\frac{G_{R}^{2}}{H_{R}+\lambda }-\gamma (J+1)$
要使分裂后的损失函数最小，即要使损失函数的减少值最大，也就是说要最大化上式。
合并同类项后，最终分裂依据为最大化下式：
$\frac{1}{2}\frac{G_{L}^{2}}{H_{L}+\lambda }+\frac{1}{2}\frac{G_{R}^{2}}{H_{R}+\lambda }-\frac{1}{2}\frac{(G_{L}+G_{R})^{2}}{H_{L}+H_{R}+\lambda}-\gamma$

4.XGBoost算法流程

输入：数据集，最大迭代次数 $T$ ，损失函数 $L$ ，正则化系数 $\gamma ,\lambda$ ，弱学习器。
输出：强学习器。
(1)在第 $t$ 轮中，计算第 $i$ 个样本在损失函数 $L_{t}$ 中关于上一轮强学习器 $f_{t-1}(x_{i})$ 的一阶导和二阶导 $g_{t,i},h_{t,i}$ ；同时，计算样本对应的叶子节点的一阶导和二阶导 $G_{t,i},H_{t,i}$ 。
(2)将样本按特征从小到大排列，依次计算当前样本放入左子树后，分裂后的损失和未分裂时的损失，选择最大化损失函数减少值的点进行分裂：
$\max\frac{1}{2}\frac{G_{L}^{2}}{H_{L}+\lambda }+\frac{1}{2}\frac{G_{R}^{2}}{H_{R}+\lambda }-\frac{1}{2}\frac{(G_{L}+G_{R})^{2}}{H_{L}+H_{R}+\lambda}-\gamma$
(3)如果分裂后值为 $0$ ，计算所有叶子节点区域的拟合值 $w_{t,j}$ ，得到弱学习器 $h_{t}(x)$ ，强学习器 $f_{t}(x)$ ；否则，重复以上步骤。

5.XGBoost实现

#基本用法，默认参数
from sklearn import datasets,model_selection,metrics
from xgboost import XGBClassifier
digits=datasets.load_digits()
x,y=digits.data,digits.target
x_train,x_test,y_train,y_test=model_selection.train_test_split(x,y)
model=XGBClassifier()
model.fit(x_train,y_train)
y_pred=model.predict(x_test)
print(metrics.accuracy_score(y_pred,y_test))

输出：

0.9711111111111111

#网格搜索确定深度和弱学习器个数
cvModel = model_selection.GridSearchCV(XGBClassifier(),{'max_depth': [4,5,6],'n_estimators': [5,10,20]},
                                      cv=5)
cvModel.fit(x_train,y_train)
print(cvModel.best_score_,cvModel.best_params_)

输出：

0.9532231860112901 {'max_depth': 5, 'n_estimators': 20}

stackooooover

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录