一文速学-XGBoost模型算法原理以及实现+Python项目实战_xgboost金融领域模型实战

最新推荐文章于 2024-08-20 09:50:01 发布

2401_84181273

最新推荐文章于 2024-08-20 09:50:01 发布

阅读量714

点赞数 17

分类专栏：程序员文章标签：算法 python 金融

本文链接：https://blog.csdn.net/2401_84181273/article/details/138424988

版权

本文深入介绍了XGBoost模型的原理，包括目标函数变换、树的引入及其优化策略。通过贷款违约预测模型的实战，阐述了数据预处理、特征处理和XGBoost模型训练过程，探讨了关键参数如最大深度、最小叶子节点样本权重、gamma、subsample和colsample_bytree等的调整对模型性能的影响。

摘要由CSDN通过智能技术生成

$f_{t}(x_{i})$ 是第 $t$ 颗树，也就是我们第 $t$ 次迭代需要得到的树。

也就是t个模型的预测值等于前t个模型的预测值+当前正在训练第t个模型的预测值。

那么上述公式简化为：

$Obj{t}=\sum_{i=1}{n}l(y_{i},\hat{y}_{i}{(t)})+\sum_{k=1}{t}\Omega (f_{k})$

2.目标函数变换

我们可以讲上述公式变换：

首先将算法模型 $y_{i}{t}=y_{i}{t-1}+f_{t}(x_{i})$ 带入取代 $y_{i}^{t}$ ，将后面基学习器树的复杂度进行拆分，拆成前t-1棵树的复杂度加上当前模型树的复杂度，又因为我们当时正在训练第t棵树，所以针对于前k棵树都是常量，所以现在我们的目标函数又可以写成：

$Obj{t}=\sum_{i=1}{n}l(y_{i},\hat{y}_{i}^{(t-1)}+f_{t}(x_{i}))+\Omega (f_{t})+constant$

这里我们考虑平方损失，此时目标函数又可以变形为：

$Obj{(t)}=\sum_{i=1}{n}(2(y_{i}-\hat{y}_{i}{(t-1)})f_{t}(x_{i})+f_{t}(x_{i})+f_{t}(x_{i}){2})+\Omega (f_{t})+constant$

根据上面我们就构造好了目标函数，但是为了将其进行简化，我们将其进行泰勒二阶展开

泰勒二阶展开式一般形式如下：

$f(x+\Delta x)=f(x)+f{}'(x)\Delta x+\frac{1}{2}f{}'{}'(x)\Delta x^{2}$

此时我们定义 $f(x)=\sum_{i=1}{n}l(y_{i},\hat{y}_{i}{(t)})$ , $\Delta x=f_{t}$ .

目标函数利用泰勒展开式就可以变成：

$Obj{t}=\sum_{i=1}{n}l(y_{i},\hat{y}_{i}{(t-1)}+g_{i}f_{t}(x_{i})+\frac{1}{2}h_{i}f{}'{}'(x_{i}){(2)})+\Omega (f_{t})+constant$

其中

因为我们的 $g_{i}$ 和 $h_{i}$ 都是和前 $t-1$ 个学习器相关，所以都为常数，那么简化后的目标函数就为：

$min\sum_{i=1}{n}[L(y_{i},y_{i}{t-1})+g_{i}f_{t}(x_{i})+\frac{1}{2}h_{i}f_{t}^{2}(x_{i})]+\Omega (f_{t})$

变换优势总结

变换后的目标函数可以被二阶泰勒展开，使得目标函数在每个节点的损失函数可以被表示为关于该节点预测值的二次函数，这样可以在计算最优分裂点时，使用牛顿法或拟牛顿法等高效的优化算法来求解。
变换后的目标函数可以解决梯度爆炸和梯度消失问题，这是由于使用指数函数和对数函数进行变换，将目标函数的值范围映射到了一个合适的区间，从而避免了数值溢出和数值不稳定的情况。
变换后的目标函数可以解决分类问题的类别不平衡问题，这是由于在分类问题中，负样本数量通常远大于正样本数量，导致算法容易偏向于负样本。通过将目标函数变换为指数损失函数或对数损失函数，可以对正负样本进行加权，从而解决类别不平衡问题。