xgboost原理

最新推荐文章于 2025-04-07 23:36:07 发布

shitaixiaoniu

最新推荐文章于 2025-04-07 23:36:07 发布

阅读量4.2k

点赞数 3

分类专栏：机器学习

本文链接：https://blog.csdn.net/shitaixiaoniu/article/details/53161348

版权

本文深入探讨了XGBoost的核心组成部分，包括回归树作为基础学习器，树集成方法，以及梯度提升模型的学习过程。通过泰勒展开简化优化目标，并详细解释了如何使用贪心算法寻找分割点，以及剪枝和正则化的策略。内容基于陈天奇的研究论文。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这篇文章主要参考了陈天奇的14年的slice[1]，算是一个中文翻译+自我理解的笔记吧。

1.第一部分：

有监督学习包括三部分：模型、参数和优化目标。此部分略过不提。

2.第二部分：boosted tree

1. 回归树（base learner）

base learner是回归树，其决策规则与决策树（decision tree）类似,但是用来预测实数值，即每一个叶结点是一个实数，而不是如决策树那样的类标签。即使xgboost用于分类问题，其base learner依然是回归树，因为核心是树的结果的累加，分类标签显然是不可能累加的。（分到同一个叶子结点的训练样本的预测值不唯一的时候，以所有样本预测值的均值作为叶子结点输出的最终预测值）

2. Tree Ensemble

base learner往往比较简单，预测能力有限，要用更强的模型-Tree Ensemble Method.通过base learner的共同决策来学习。这种思想应用广泛，gbrt,rf啊都用到了tree ensemble的方法。这种方法使得对特征不敏感，无需对特征进行归一化。
比如上边的例子，我们用两棵树来学习。

那么Tree Ensemble 严格的
[模型]: