xgboost原理

最新推荐文章于 2023-04-24 16:35:26 发布

howardact

最新推荐文章于 2023-04-24 16:35:26 发布

阅读量704

点赞数 1

分类专栏： machineLearning

本文链接：https://blog.csdn.net/howardact/article/details/55213083

版权

machineLearning 专栏收录该内容

22 篇文章 0 订阅

订阅专栏

1.1、一般的目标函数：

O b j (Θ) = L (Θ) + Ω (Θ) (1.1.1)

$Obj(\Theta)=L(\Theta) + \Omega(\Theta)\tag{1.1.1}$

$L(\Theta):损失函数，代表我们的模型有多拟合数据， \Omega(\Theta)：正则化项，表示模型的复杂程度$
这样目标函数的设计来自于统计学习里面的一个重要概念叫做Bias-variance tradeoff44。比较感性的理解，Bias可以理解为假设我们有无限多数据的时候，可以训练出最好的模型所拿到的误差。而Variance是因为我们只有有限数据，其中随机性带来的误差。目标中误差函数鼓励我们的模型尽量去拟合训练数据，这样相对来说最后的模型会有比较少的 bias。而正则化项则鼓励更加简单的模型。因为当模型简单之后，有限数据拟合出来结果的随机性比较小，不容易过拟合，使得最后模型的预测更加稳定。

1.2、对于tree ensemble，我们可以比较严格的把我们的模型写成是：

y^i = \sum k = 1 K f k (x i), f k \in F (1.2.1)

$\hat{y}_i = \sum_{k=1}^{K}f_k(x_i),f_k \in \mathcal{F}\tag{1.2.1}$

y^(t) i = \sum k = 1 t f k (x i) = y^(t - 1) i + f t (x i) (1.2.2)

$\hat{y}_i^{(t)}= \sum_{k=1}^tf_k(x_i)=\hat{y}_i^{(t-1)}+f_t(x_i)\tag{1.2.2}$

k代表第k课树，最终的结果是K棵树结果的加和。

1.3、xgboost设计目标也包含上面的两部分：

O b j (t) = = \sum i = 1 n l (y i, y^(t) i) + \sum t = 1 t Ω (f i) \sum i = 1 n l (y i, y^(t - 1) i + f t (x i)) + Ω (f t) + c o n s t a n t (1.3.1)

$\begin{eqnarray} Obj^{(t)}&=&\sum_{i=1}^nl(y_i,\hat{y}_i^{(t)} ) + \sum_{t=1}^{t}\Omega(f_i) \\ &=&\sum_{i=1}^{n}l\left(y_i,\hat{y}_i^{(t-1)}+f_t(x_i)\right) + \Omega(f_t) + constant\tag{1.3.1} \end{eqnarray}$

$找到f_t来优化这一目标$

当l为平方误差的情况下，这时候目标能改写成下面的二次函数：

O b j t = = \sum i = 1 n (y i - (y^(t - 1) i + f t (x i))) 2 + Ω (f t) + c o n s t a n t \sum i = 1 n [2 (y^(t - 1) i - y i) f t (x i) + f t (x i) 2] + Ω (f t) + c o n s t a n t

$\begin{eqnarray} Obj^{t} &=& \sum_{i=1}^n\left(y_i-(\hat{y}_i^{(t-1)}+f_t(x_i))\right)^2 + \Omega(f_t) + constant \\&=&\sum_{i=1}^n\left[2(\hat{y}_i^{(t-1)}-y_i)f_t(x_i)+f_t(x_i)^2\right] + \Omega(f_t) + constant \end{eqnarray}$

1.4、目标函数通过二阶泰勒展开变形

O b j (t) = \sum i = 1 n l (y i, y^(t - 1) i + f t (x i)) + Ω (f t) + c o n s t a n t (1.4.1)

$Obj^{(t)}=\sum_{i=1}^{n}l\left(y_i,\hat{y}_i^{(t-1)}+f_t(x_i)\right) + \Omega(f_t) + constant\tag{1.4.1}$

泰勒展开： $f (x + Δ x) ≃ f (x) + f' (x) Δ x + 1 2 f'' (x) Δ x 2$ $f(x+\Delta x) \simeq f(x) + f'(x)\Delta x + \frac{1}{2}f''(x)\Delta x^2$
定义： $g i = \partial y^(t - 1) l (y i, y^(t - 1)), h i = \partial 2 y^(t - 1) l (y i, y^(t - 1))$ $g_i=\partial_{\hat{y}^{(t-1)}}l(y_i,\hat{y}^{(t-1)}),\ \ h_i=\partial^2_{\hat{y}^{(t-1)}}l(y_i,\hat{y}^{(t-1)})$
$l\left(y_i,\hat{y}_i^{(t-1)}+f_t(x_i)\right)其中y_i每次都不变， l(y_i,\hat{y}_i^{(t-1)}) \rightarrow f(x) 其中\hat{y}_i^{(t-1)} \rightarrow x 在f(x+\Delta x)中，f_t(x_i) \rightarrow \Delta x$

O b j (t) ≃ \sum i = 1 n [l (y i, y^(t - 1) i) + g i f t (x i) + 1 2 h i f 2 t (x i)] + Ω (f t) + c o n s t a n t (1.4.2)

$Obj^{(t)}\simeq\sum_{i=1}^{n}\left[l(y_i,\hat{y}_i^{(t-1)}) + g_if_t(x_i) + \frac{1}{2}h_if_t^2(x_i)\right] + \Omega(f_t) + constant\tag{1.4.2}$

关于 $f_t的函数$ 在去除常数项后目标函数的形式如下：

\sum i = 1 n [g i f t (x i) + 1 2 h i f 2 t (x i)] + Ω (f t) (1.4.3)

$\sum_{i=1}^{n}\left[ g_if_t(x_i) + \frac{1}{2}h_if_t^2(x_i)\right] + \Omega(f_t)\tag{1.4.3}$

g i = \partial y^(t - 1) l (y i, y^(t - 1)), h i = \partial 2 y^(t - 1) l (y i, y^(t - 1))

$g_i=\partial_{\hat{y}^{(t-1)}}l(y_i,\hat{y}^{(t-1)}),\ \ h_i=\partial^2_{\hat{y}^{(t-1)}}l(y_i,\hat{y}^{(t-1)})$

传统的GBDT可能大家可以理解如优化平法aa残差，但是这样一个形式包含可所有可以求导的目标函数。也就是说有了这个形式，我们写出来的代码可以用来求解包括回归，分类和排序的各种问题

2.1、树的复杂度

对于f的定义做一下细化，把树拆分成结构部分 $q$ ，和叶子权重部分 $w$ 。下图是个具体的例子，结构函数 $q$ 把输入映射到叶子的索引号上，而 $w$ 给定了每个索引号对应的叶子分数是什么。

f t (x) = w q (x), w \in R T, q : R d \to {1, 2, . . . ., T} (2.1.1)

$f_t(x)=w_{q(x)},w\in \mathcal{R}^T,q:\mathcal{R}^d \rightarrow\{1,2,....,T\}\tag{2.1.1}$

树的复杂度公式：
$Ω (f t) = γ T + 1 2 λ \sum j = 1 T w 2 j (2.1.2)$ $\Omega(f_t)=\gamma T + \frac{1}{2}\lambda\sum_{j=1}^Tw_j^2\tag{2.1.2}$

T为叶子节点的总数目,这个复杂度包括了一棵树里面节点个数，以及每个树叶子节点上面输出分数的 $L2$ 模平方。

2.2、求解总目标函数

每个叶子上面的样本集合 $I_j=\{i|q(x_i)=j\},j=\{1,2,...T\}，j为叶子节点的id$

O b j (t) ≃ = = \sum i = 1 n [g i f t (x i) + 1 2 h i f 2 t (x i)] + Ω (f t) \sum i = 1 n [g i w q (x i) + 1 2 h i w q (x i)] + γ T + λ 1 2 \sum j = 1 T w 2 j \sum j = 1 T ⎡ ⎣ (\sum i \in I j g i) w j + 1 2 (\sum i \in I j h i + λ) w 2 j ⎤ ⎦ + γ T (2.2.1) (2.2.2) (2.2.3)

$\begin{eqnarray} Obj^{(t)}&\simeq&\sum_{i=1}^{n}\left[g_if_t(x_i)+\frac{1}{2}h_if_t^2(x_i)\right] + \Omega(f_t)\tag{2.2.1} \\ &=& \sum_{i=1}^{n}\left[g_iw_{q(x_i)} + \frac{1}{2}h_iw_{q(x_i)}\right] + \gamma T + \lambda\frac{1}{2}\sum_{j=1}^{T}w_j^2\tag{2.2.2} \\ &=& \sum_{j=1}^T\left[(\sum_{i \in I_j}g_i)w_j + \frac{1}{2}(\sum_{i \in I_j}h_i+\lambda)w_j^2\right]+\gamma T\tag{2.2.3} \end{eqnarray}$

G j = \sum i \in I j g i H j = \sum i \in I j h i (2.2.4)

$G_j = \sum_{i \in I_j} g_i \quad H_j = \sum_{i \in I_j} h_i\tag{2.2.4}$
把2.2.4带入2.2.3得：

O b j (t) = \sum i = 1 T [G j w j + 1 2 (H j + λ) w 2 j] + λ T (2.2.5)

$\begin{eqnarray} Obj^{(t)}= \sum_{i=1}^{T}\left[G_jw_j+\frac{1}{2}(H_j+\lambda)w_j^2\right]+\lambda T\tag{2.2.5} \end{eqnarray}$
一元二次方程求最小值(一阶导数为0)

w * j = - G j H j + λ (2.2.6)

$w_j^*=-\frac{G_j}{H_j+\lambda}\tag{2.2.6}$
2.2.6带入2.2.5得：

O b j = - 1 2 \sum j = 1 T G 2 j H j + λ + γ T (2.2.7)

$Obj=-\frac{1}{2}\sum_{j=1}^T\frac{G_j^2}{H_j+\lambda}+\gamma T\tag{2.2.7}$

G a i n = 1 2 [G 2 L H L + λ + G 2 R H R + λ - ( G l + G R ) 2 H L + H R + λ] - γ (2.2.8)

$Gain=\frac{1}{2}\left[\frac{G_L^2}{H_L+\lambda}+\frac{G_R^2}{H_R+\lambda}-\frac{(G_l+G_R)^2}{H_L+H_R+\lambda}\right]-\gamma\tag{2.2.8}$

$\frac{G_L^2}{H_L+\lambda}:左子树分数，\frac{G_R^2}{H_R+\lambda}：右子树分数；\frac{(G_l+G_R)^2}{H_L+H_R+\lambda}：不分割的分数；\gamma:新加入节点引入的复杂代价$

参考文献
http://www.52cs.org/?p=429

howardact

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
xgboost原理

1.1、一般的目标函数：Obj(Θ)=L(Θ)+Ω(Θ)Obj(\Theta)=L(\Theta) + \Omega(\Theta) L(Θ):损失函数，代表我们的模型有多拟合数据，Ω(Θ)：正则化项，表示模型的复杂程度L(\Theta):损失函数，代表我们的模型有多拟合数据， \Omega(\Theta)：正则化项，表示模型的复杂程度这样目标函数的设计来自于统计学习里面的一个重要概念叫
复制链接

扫一扫

专栏目录