XGBoost: A Scalable Tree Boosting System 笔记

最新推荐文章于 2022-07-03 20:41:02 发布

吴彦蛆

最新推荐文章于 2022-07-03 20:41:02 发布

阅读量396

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/tangyaruo/article/details/105622334

版权

本文深入探讨了XGBoost的原理和系统设计，包括树增强的正则化目标、梯度提升算法、收缩和列采样防止过拟合，以及分裂查找算法的优化策略，如分位数近似和稀疏数据处理。XGBoost通过并行学习、缓存优化和外存计算等方法实现了高效的系统设计。

摘要由CSDN通过智能技术生成

刚开始接触xgboost是在解决一个二分类问题时学长介绍。在没有接触这篇论文前，我以为xgboost一个很厉害的algorithm，但是从论文title来看，xgboost实际是一个system，论文重点介绍了xgb整个系统是如何搭建以及实现的，在模型算法的公式改进上只做了一点微小的工作。

论文的major contribution：

We design and build a highly scalable end-to-end tree boosting system.
We propose a theoretically justified weighted quantile sketch for efficient proposal calculation.
We introduce a novel sparsity-aware algorithm for par- allel tree learning.
We propose an effective cache-aware block structure for out-of-core tree learning.

Abstract + 第一章Introduction主要介绍了xgboost的major contribution以及xgboost目前所取得的成绩，在此不再赘述。以下文字开始进入论文的核心部分：

第二章 TREE BOOSTING IN A NUTSHELL

假设存在数据集，m为特征数量，n为样本数量。假设存在一个模型，由K个课树组成，我们用以下公式来表示这个模型：

其中，表示第棵树对 x_i 这个样本进行预测得到的结果；T表示该棵树模型的叶子节点的数量； w_t 表示这棵树中第个叶子节点的权重，也就是预测值； q(x) 这个函数表示找到 x_i 所属的叶子节点的下标。

以上定义了树模型的预测函数，接下来定义整个目标函数：

这里 $l(\cdot )$ 是一个可导的凸函数，用来表示预测值 $\widehat{y}$ 和真实值之间的差异，可以用MSE来衡量； $\Omega$ 是惩罚项，用来防止树的结构过于复杂

关注