Datawhale集成学习：XGBoost算法分析与案例调参实例

最新推荐文章于 2022-02-01 10:05:16 发布

Mr.小林

最新推荐文章于 2022-02-01 10:05:16 发布

阅读量187

点赞数 1

本文链接：https://blog.csdn.net/weixin_41221544/article/details/116177979

版权

本文详细介绍了XGBoost算法的流程，包括其与GBDT的区别，并通过实例展示了XGBoost在分类和回归任务中的应用。文章强调了XGBoost在优化、正则化、并行计算等方面的工程优势，同时也指出了其缺点和潜在的计算成本。

摘要由CSDN通过智能技术生成

XGBoost算法

XGBoost是陈天奇等人开发的一个开源机器学习项目，高效地实现了GBDT算法并进行了算法和工程上的许多改进。
XGBoost本质上还是一个GBDT，但是力争把速度和效率发挥到极致，所以叫X (Extreme) GBoosted，包括前面说过，两者都是boosting方法。
XGBoost是一个优化的分布式梯度增强库，旨在实现高效，灵活和便携。它在Gradient Boosting框架下实现机器学习算法。 XGBoost提供了并行树提升（也称为GBDT，GBM）
XGBoost利用了核外计算并且能够使数据科学家在一个主机上处理数亿的样本数据。
Xgboost以CART决策树为子模型，通过Gradient Tree Boosting实现多棵CART树的集成学习，得到最终模型。

XGBoost算法流程

(1)数据集：
$\mathcal{D}=\left\{\left(\mathbf{x}_{i}, y_{i}\right)\right\}\left(|\mathcal{D}|=n, \mathbf{x}_{i} \in \mathbb{R}^{m}, y_{i} \in \mathbb{R}\right)$

(2) 构造目标函数：
假设有K棵树，则第i个样本的输出为 $\hat{y}_{i}=\phi\left(\mathrm{x}_{i}\right)=\sum_{k=1}^{K} f_{k}\left(\mathrm{x}_{i}\right), \quad f_{k} \in \mathcal{F}$ ，其中， $\mathcal{F}=\left\{f(\mathbf{x})=w_{q(\mathbf{x})}\right\}\left(q: \mathbb{R}^{m} \rightarrow T, w \in \mathbb{R}^{T}\right)$
因此，目标函数的构建为：
$\mathcal{L}(\phi)=\sum_{i} l\left(\hat{y}_{i}, y_{i}\right)+\sum_{k} \Omega\left(f_{k}\right)$
其中， $\sum_{i} l\left(\hat{y}_{i}, y_{i}\right)$ 为loss function， $\sum_{k} \Omega\left(f_{k}\right)$ 为正则化项。

(3) 叠加式的训练(Additive Training)：
给定样本 $x_i$ ， $\hat{y}_i^{(0)} = 0$ (初始预测)， $\hat{y}_i^{(1)} = \hat{y}_i^{(0)} + f_1(x_i)$ ， $\hat{y}_i^{(2)} = \hat{y}_i^{(0)} + f_1(x_i) + f_2(x_i) = \hat{y}_i^{(1)} + f_2(x_i)$ …以此类推，可以得到：$ \hat{y}_i^{(K)} = \hat{y}_i^{(K-1)} + f_K(x_i)$ ，其中，$ \hat{y}_i^{(K-1)} $ 为前K-1棵树的预测结果，$ f_K(x_i)$ 为第K棵树的预测结果。
因此，目标函数可以分解为：
$\mathcal{L}^{(K)}=\sum_{i=1}^{n} l\left(y_{i}, \hat{y}_{i}^{(K-1)}+f_{K}\left(\mathrm{x}_{i}\right)\right)+\sum_{k} \Omega\left(f_{k}\right)$

最低0.47元/天解锁文章

Mr.小林

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
Datawhale集成学习：XGBoost算法分析与案例调参实例

XGBoost算法XGBoost是陈天奇等人开发的一个开源机器学习项目，高效地实现了GBDT算法并进行了算法和工程上的许多改进。XGBoost本质上还是一个GBDT，但是力争把速度和效率发挥到极致，所以叫X (Extreme) GBoosted，包括前面说过，两者都是boosting方法。XGBoost是一个优化的分布式梯度增强库，旨在实现高效，灵活和便携。它在Gradient Boosting框架下实现机器学习算法。 XGBoost提供了并行树提升（也称为GBDT，GBM）XGBoost利用了
复制链接

扫一扫