Datawhale-集成学习Day6-XGBoost

最新推荐文章于 2024-09-13 23:54:45 发布

萌萌不在家

最新推荐文章于 2024-09-13 23:54:45 发布

阅读量99

点赞数

分类专栏： Datawhale-集成学习笔记文章标签：机器学习算法人工智能

本文链接：https://blog.csdn.net/PingYiWeiLiang/article/details/116177161

版权

Datawhale-集成学习笔记专栏收录该内容

6 篇文章 0 订阅

订阅专栏

本文介绍了泰勒公式的基础知识，强调了其在函数表示上的重要性，并详细阐述了XGBoost中如何利用泰勒公式优化损失函数，特别是如何通过损失函数和惩罚项控制模型复杂度，防止过拟合，以实现更好的泛化能力。XGBoost通过梯度提升决策树和精确贪心算法选择最优分裂节点，确保模型的预测性能。

摘要由CSDN通过智能技术生成

1. 前置知识——泰勒公式

学过高等数学的话，我们就可以知道泰勒公式。这是一个很美妙的公式，其最大的贡献就是可以通过多项式来表示其他函数。也就是说，我们可以将一些不规则的函数转化为一个无限项的多项式。

带有Peano余项的泰勒公式：
$f(x)=f(x_0)+f^`(x_0)(x-x_0)+{{f^{``}(x_0)} \over {2!}}(x-x_0)^2 + \cdots + {{f^{(n)}(x_0)} \over {n!}}(x-x_0)^n+o((x-x_0)^n)$
其中 $o((x-x_0)^n)$ 表示为 $x-x_0)^n$ 的高阶无穷小。在一定情况下可以忽略。

带有拉格朗日余项的泰勒公式：
$f(x)=f(x_0)+f^`(x_0)(x-x_0)+{{f^{``}(x_0)} \over {2!}}(x-x_0)^2 + \cdots + {{f^{(n)}(x_0)} \over {n!}}(x-x_0)^n+R_n(x)$
其中：
$R_n(x)={f^{(n+1)}(\zeta) \over (n+1)!}(x-x_0)^{n+1}$
两者的区别：一般来说，我们想要研究函数的整体性质的时候可以使用Peano余项的泰勒公式，当我们想要研究函数的局部性质的时候我们可以选择使用带有拉格朗日余项的泰勒公式。

2. XGBoost

在前面的文章中，我们介绍了提升树和GBDT。但是在GBDT中，我们并没有说loss和punish项该如何设置。而在XGBoost中，陈天奇大佬设计了一种计算损失的方式。

首先，如果我们想要模型不仅对已知数据具有很好的训练效果，还想要模型有很好的泛化效果的话。我们就需要控制模型的复杂度。一般来说，过于复杂的模型，对已知数据的拟合效果效果很好，但是会造成过拟合。因此我们需要控制模型的复杂度，不仅需要很好的拟合效果，还不能造成过拟合。所以，我们将目标函数设置为：
$\mathcal{L}(\phi)=\sum_{i} l\left(\hat{y}_{i}, y_{i}\right)+\sum_{k} \Omega\left(f_{k}\right)$
其中，前面一项是整个模型的损失，后面一项是惩罚项，用来控制模型的复杂度。

根据GBDT的思想，我们使用前向分布算法来优化模型。假设 $T_1 \cdots T_{n-1}$ 棵树已经训练完毕。那么，我们在后面的训练中将不再训练这前n-1棵树。然后，第n棵树可以表示为:
$f_{n}(x) = f_{n-1}(x) + T_n(x; \theta)$
因此：损失函数：
$\mathcal{L}_n(\phi)=\sum_i l(y_i, f_n(x_i)) + \sum_t^n \Omega(T_t) \\ =\sum_i l(y_i, f_n(x_i)) + \Omega(f_n) + \sum_t^{n-1} \Omega(T_t) \\ =\sum_i l(y_i, f_{n-1}(x_i)+T_n(x; \theta)) + \Omega(T_n) + \sum_t^{n-1} \Omega(T_t)$
因为前n-1棵树已经训练完成，所以最后一项为常数，可以不用考虑。

对损失函数展开二阶泰勒：
$\mathcal{L}_n \simeq \sum_{i=1}\left[l\left(y_{i}, f_{n-1}(xi)\right)+g_{i} T_{n}\left(\mathrm{x}_{i}\right)+\frac{1}{2} h_{i} T_{n}^{2}\left(\mathrm{x}_{i}\right)\right]+\Omega\left(T_{n}\right)$
其中：
$g_{i}={\partial \mathcal{l}(y_i, f_{n-1}(x_i)) \over \partial f_{n-1}(x_i)}\\ h_{i}={\partial^2 \mathcal{l}(y_i, f_{n-1}(x_i)) \over \partial^2 f_{n-1}(x_i)}$
而且，因为前n-1棵树已经确定，所以损失也是确定的。损失中的第一项，已为常数，因此也可以消去。

此时，剩余的就是：
$\mathcal{L}_n = \sum_{i=1}\left[g_{i} T_{n}\left(\mathrm{x}_{i}\right)+\frac{1}{2} h_{i} T_{n}^{2}\left(\mathrm{x}_{i}\right)\right]+\Omega\left(T_{n}\right)$
然后就是定义惩罚项，惩罚项表示的是模型的复杂度：
$\Omega\left(f_{n}\right) = \gamma T+\frac{1}{2} \lambda \sum_{j=1}^{T} w_{j}^{2}$
其中，T是决策树的叶子节点的个数。 $KaTeX parse error: Undefined control sequence: \w at position 1: \̲w̲_j^2$ 是叶子节点j的输出。

综合一下后：
$\mathcal L_n = \sum_{i=1}\left[g_{i} T_{n}\left(\mathrm{x}_{i}\right)+\frac{1}{2} h_{i} T_{n}^{2}\left(\mathrm{x}_{i}\right)\right] + \gamma T+\frac{1}{2} \lambda \sum_{j=1}^{T} w_{j}^{2} \\ = \sum_{j=1}^{T}[(\sum _{i \in I_j}g_i)w_{q(x_i)} + {1 \over 2}(\sum _{i \in I_j} h_i + \lambda)w_j^2] + \gamma T$
我们可以看出，这是一个关于 $w$ 的二次式。