XGBoost介绍

最新推荐文章于 2024-07-06 00:01:14 发布

6丁一的猫

最新推荐文章于 2024-07-06 00:01:14 发布

阅读量599

点赞数 1

分类专栏：机器学习基础知识

本文链接：https://blog.csdn.net/weixin_36541072/article/details/89883766

版权

机器学习基础知识专栏收录该内容

4 篇文章 0 订阅

订阅专栏

XGBoost介绍

文章目录

XGBoost介绍

一.决策树

If-Else规则的集合，将样本递归地划分到对应的子空间，实现样本的分类。

二.信息增益和信息增益比

熵：
$H(X)=-\sum_{i=1}^np_i\log p_i$
信息增益：
$g (D, A) = H (D) - H (D ∣ A)$

$H(D|A)=\sum_{i=1}^{|A|}\frac{|D_i|}{|D|}H(D_i)$
信息增益比
$g_R(D,A)=\frac{g(D,A)}{H_A(D)}$

$H_A(D)=-\sum_{i=1}^n\frac{|D_i|}{|D|}\log_2\frac{|D_i|}{|D|}$
ID3算法和C4.5算法

大同小异，使用的特征选择算法不同而已

三.剪枝

剪枝是通过对损失函数或代价函数进行极小化来实现的。因此，为了实现简化树结构，必须增加对树结构的惩罚项。
$C_\alpha(T)=\sum_{t=1}^{|T|}N_tH_t(T)+\alpha|T|$

$C_\alpha(T)=C(T)+\alpha|T|$

从模型复杂度与预测正确性之间做出折中。

剪枝条件： $C_\alpha(T_A)\leq C_\alpha(T_B)$ (After, Before)

四.CART算法

classification and regression tree.

回归树

回归树模型可表示为：
$f(x)=\sum_{m=1}^Mc_mI(x\in R_m)$
用平方误差作为回归树对训练数据的预测误差：
$\sum_{x_i\in R_m}(y_i-f(x_i))^2$
切分点确定：

遍历切分点(j, s)，最优化：
$\min_{j,s} \left[ \min_{c_1}\sum_{x_i\in R_1(j,s)}(y_i-c_1)^2+ \min_{c_2}\sum_{x_i\in R_2(j,s)}(y_i-c_2)^2 \right]$

其中j为属性，s为属性的切分点。

分类树

特征选择：基尼指数
$Gini(p)=\sum_{k=1}^Kp_k(1-p_k)=1-\sum_{k=1}^Kp_k^2$
仍然是每一特征切为二类，寻找最优切分点：
$\frac{|D_1|}{|D|}Gini(D_1) + \frac{|D_2|}{|D|}Gini(D_2)$

CART 剪枝

对CART树而言，其模型代价函数仍可以用：
$C_\alpha(T)=C(T)+\alpha|T|$
来表示。那么对于书中的某一结点t，以t为单节点树的损失函数为：
$C_\alpha(t)=C(t)+\alpha$
以t为根节点的模型子树T_t的损失函数为：
$C_\alpha(T_t)=C(T_t)+\alpha|T_t|$
当 $\alpha=\frac{C(t)-C(T_t)}{|T_t|-1}$ ，剪枝与不剪枝的损失函数相等，根据奥卡姆剃刀原理，此时倾向于剪枝。

其实，CART剪枝的核心思想就是根据树的内部节点t,计算：
$g(t)=\frac{C(t)-C(T_t)}{|T_t|-1}$
根据计算得来的各个g值，选择不同的 $\alpha$ 值，对树进行剪枝。最后运用交叉验证方法选择最优的子树。

五.前向分步算法

前向分步算法可用加法模型进行表示：
$f(x)=\sum_{m=1}^M\beta_mb(x,\gamma_m)$
在第m步，优化目标为：
$(\beta_m, \gamma_m)=\arg\min_{\beta, \gamma}\sum_{i=1}^NL(y_i,f_{m-1}(x_i)+\beta b(x_i;\gamma))$

提升树模型

$f_M(x)=\sum_{m=1}^MT(x,\Theta_m)$

当使用平方损失函数时，在第m步：
$\begin{matrix}\\ L(y,f_m(x))&=&L(y,f_{m-1}(x)+T(x;\Theta_m))\\ &=&[y-f_{m-1}(x)-T(x;\Theta_m)]^2\\ \text{let }r=y-f_{m-1}(x)\\ &=&[r-T(x;\Theta_m)]^2 \end{matrix}$

可以看出，第m步其实仅对前m-1个弱分类器预测给出的残差做了拟合。

梯度提升树模型

但是，当损失函数不为平方损失时， $T(x;\Theta_m)$ 就不能简单地对残差进行拟合。为此，Freidman提出梯度提升树算法：
$r_m=- \left[ \frac{\partial L(y_i,f(x_i))}{\partial f(x_i)} \right]_{f(x)=f_{m-1}(x)}$
用第m个CART树对残差进行拟合。

六.XGBoost算法

对于一个给定的数据集(n rows, m features) $\mathcal D=\{(x_i,y_i)\}(|\mathcal D|=n, x_i\in \mathcal R^m, y_i\in R)$ , 集成树模型使用K个加法模型预测最终的输出：
$\hat y_i = \phi(X_i)=\sum_{k=1}^Kf_k(X_i), f_k\in\mathcal F$
在这里， $\mathcal F=\{f(X)=\omega_q(X)\}(q:\mathcal R^m\rightarrow T,\omega\in \mathcal R^T )$ 代表回归树的空间。 $\mathcal q$ 即代表着将样本划分到对应叶子节点的树结构；T为树的叶子节点数目。每一 $f_k$ 代表着独立的一颗树的结构以及权重。与决策树不同的是，回归树的每一叶子节点上包含一个连续的打分，即第 $i$ 个叶子结点的打分为 $\omega_i$ 。

因此在Xgboost中，通过将样本在对应叶子节点上的权值累加起来，最终给出分类结果。

XGBoost的算法过程其实就是前向分布算法的过程，不过XGBoost提出了新的损失函数：
$L(\phi)=\sum_il(\hat y_i, y_i)+\sum_k\Omega(f_k)\\ where\ \Omega(f)=\gamma T+\frac12\lambda||\omega||^2$
将损失函数展开：
$\mathcal L^{t}=\sum_{i=1}^nl(y_i,\hat y_i^{t-1}+f_t(X_i))+\Omega(f_t)$
根据泰勒展开：
$f(x+\Delta x)=f(x)+\frac{f'(x)}{1!}\Delta x+\frac{f''(x)}{2!}\Delta x^2+O(\Delta x^3)$
令 $\Delta x=f_t(X_i)$ ，利用二阶展开，利用前t-1步得到的模型给出的损失对第t步的损失进行逼近，得到：
$\mathcal L^{t}\approx\sum_{i=1}^n[l(y_i,\hat y_i^{t-1})+g_if_t(X_i)+\frac12h_if_t^2(X_i)]+\Omega(f_t)$
舍弃常数项，展开正则项：
$\tilde{\mathcal L}^t=\sum_{i=1}^n [ g_if_t(X_i)+ \frac12h_if_t^2(X_i) ]+ \gamma T+\frac12\lambda\sum_{j=1}^T\omega_j^2\\$
将损失函数展开到叶子节点上，令 $I_j=\{i|q(X_i)=j\}$ ：
$\tilde{\mathcal L}^t=\sum_{j=1}^T [ (\sum_{i\in I_j}g_i)w_j+ \frac12(\sum_{i\in I_j}h_i+\lambda)w_j^2 ]+\gamma T$
令 $G_j=\sum_{i\in I_j}g_i, H_j=\sum_{i\in I_j}h_i$ ，对以上损失函数进行求导，在导数为零时得到损失函数极小值，求得最优权值为：
$\omega_j^*=-\frac{G_j}{H_j+\lambda}$
将求得的权值代入损失函数：
$\tilde{\mathcal L}^t(q)=-\frac12\sum_{j=1}^T\frac{G_j^2}{H_j+\lambda}+\gamma T$
所以XGBoost的切分点是通过求使得损失函数下降最大的位置得来的：
$\mathcal L_{split}=\frac12 \left[ \frac{G_L^2}{H_L+\lambda}+ \frac{G_R^2}{H_R+\lambda}- \frac{G_I^2}{H_I+\lambda} \right]-\gamma$