XGBoost - Classification

mzx8181

已于 2023-08-07 19:32:31 修改

阅读量116

点赞数

文章标签：算法

于 2023-08-01 15:29:52 首次发布

本文链接：https://blog.csdn.net/mzx8181/article/details/132040243

版权

1 Classification and Regression Tree (CART)：

CART：是一种决策树模型，可以用于分类或者回归

CART学习算法步骤：

Step1：决策树生成：用训练数据生成决策树，生成的树尽可能大

Step2：决策树剪枝：基于损失函数最小化进行剪枝，用验证数据对生成的数据剪枝

最优化策略
分类树最优化策略：基尼指数最小化策略
回归树最优化策略：平方损失最小化策略

1.1 分类树（Classification Tree）

分类树使用基尼指数作为划分依据

基尼指数计算公式：

Step1：计算特征的Gini值，确定该特征下的最佳分裂点

$\sum^{K}_{k-1}p^2_k$

Step2：计算该特征的Gini_index，确定最佳的特征进行分裂

$Gini\_index(D,a) = \sum^{V}_{v=1}\frac{D^v}{D}Gini(D^v)$

基尼值计算示例
请添加图片描述
有房子的基尼值：有房子的样本有3个（序号：1、4、7），对应是否拖欠贷款有3个no，0个yes

$(\frac{0}{3})^2-(\frac{3}{3})^2 = 0$

没有房子的基尼值：没有房子的样本有7个（序号：2、3、5、6、8、9、10），对应是否拖欠贷款有4个no，3个yes

$(\frac{3}{7})^2-(\frac{4}{7})^2 = 0.4898$

计算最终的基尼指数：没有房子的样本有7个，有房子的样本有3个

$Gini\_index=(D, house) = \frac{7}{10}*0.4898+ \frac{3}{10}*0=0.343$

ps. 如果是数值型变量，现将其按升序排列，然后每两个相邻值的平均数作为候选分类点，找出其中Gini值最小的点作为分裂点（如果有相同的Gini值，就任选一个）

最终对比变量之间的Gini_index，Gini_index为最小值的特征作为分裂特征（如果有相同的Gini_index值，就任选一个）

重复上述步骤，直到每个叶子结点纯度达到最高

1.2 回归树（Regression Tree）

回归树使用平方损失来表示回归树对于训练数据的预测误差，平方误差最小处即为最优输出值

$\sum\limits_{x_i \in R_m}(y_i - f(x_i))^2$

回归树采用采用启发式的方法，根据特征分裂成左子树和右子树。如，对于第 $j$ 个变量 $x_j$ 作为划分特征， $x_j=s$ 为其分裂点，那么样本就被划分为：

$R_1(j,s) = \{x|x_i\leqslant {s}\}$
$R_2(j,s) = \{x|x_i>s\}$

具体求解最优划分特征 $j$ 和最优划分点 $s$

$\min\limits_{j,s}[\min\limits_{c_1}\sum\limits_{x_i \in R_1}(y_i - c_1)^2+ \sum\limits_{x_i \in R_2}(y_i - c_2)^2]$

只需要求解所有特征的所有切分点，就可以找到最优切分特征和切分点，得到最终的回归树

限制CART的生长：
1- 样本个数阈值；
2- 基尼系数阈值。当达到阈值时，当前节点停止递归

2 Extreme Gradient Boosting (XGBoost)

（1）XGBoost算法思想
XGBoost是Chen 和 Guestrin 提出的一种集成学习模型，其借助了 CART 回归树的思想，并在其基础上进行了改进。算法采用Gradient Boosting的思想，每一个基学习器重点关注前一个基学习器不足的地方进行训练，串行的训练多个模型逐步逼近降低损失，最终根据样本特征将每棵树落到对应的叶子结点上，将每个叶子节点上的分数相加，即为预测值。
Boosting是串行地训练多个模型，逐步逼近降低损失

$\hat{y}=\sum^K_{k=1}f_k(x_i)$

（2）XGBoost算法原理
XGBoost目标函数定义为
$Obj=\sum^n_{i=1}l(y_i,\hat{y_i})+\sum^K_{k=1}\Omega(f_k)$

由于XGBoost是在前k-1棵树的基础上进行预测的，因此前k-1棵树的预测结果和模型复杂度是已知的，只有第k棵树的预测值是未知的，因此，生成第k棵树之后，预测值就可以表示为

$\hat{y_i}^{(t)}=\hat{y_i}^{(t-1)}+f_t(x_i)$

由于 $\sum_{1}^{k-1}\Omega(f_k)$ 可以视为常数省略，因此，目标函数就可以表示为

$Obj=\sum^n_{i=1}l(y_i,\hat{y_i}^{(t-1)}+f_t(x_i))+\Omega(f_k)$

利用泰勒二阶级数展开目标函数，可以得到目标函数为

$\approx \sum_{i=1}^{n}[l(y_i,\hat{y_i}^{t-1})+\partial_{\hat{y_i}^{t-1}}l(y_i,\hat{y_i}^{t-1})f_t(x_i)+\frac{1}{2}\partial^{2}_{\hat{y_i}^{t-1}}l(y_i,\hat{y_i}^{t-1})f^2_t(x_i)]+\Omega(f_t)$