XGBoost

最新推荐文章于 2024-04-21 14:19:33 发布

SayItClear

最新推荐文章于 2024-04-21 14:19:33 发布

阅读量104

点赞数

分类专栏：机器学习算法

本文链接：https://blog.csdn.net/SayItClear/article/details/89188702

版权

机器学习算法专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1. 原理

xgboost代表“Extreme Gradient Boosting”，是对gradient boosting的优化，其原理还是基于GradientBoost，他的创新之处在于使用了二阶导数和正则项。xgboost的基学习器为CART。

2.优化函数

xgboost是加法模型，其结果是多个CAET树的结果的和，表示为:
$\hat{y_i}=\sum_{k=1}^Kf_k(x_i),f_k\in F$
要优化的目标函数由下式给出：
$obj(\theta)=\sum_i^n l(y_i,\hat{y_i})+\sum_{k=1}^K\Omega(f_k)$
优化函数包含训练损失函数和正则化项.
定义完目标函数，之后训练过程中对目标函数进行优化。
xgboost的原理还是GradientBoost，所以当学习第t棵Cart树时，其目标是对之前学到的模型进行修复，使其更加贴近目标。第t棵树的优化目标为：
$obj^{(t)}=\sum_{i=1}^nl(y_i,\hat{y_i^{(t) }}) +\sum_{i=1}^t\Omega(f_i)=\sum_{i=1}^nl(y_i,\hat{y_i}^{(t-1)}+f_t(x_i))+\Omega(f_t)+constant$

3. 损失函数

损失函数一般使用MSE，所以目标变成了：
$obj^{(t)}=\sum_{i=1}^n(y_i-(\hat{y_i}^{(t-1)})+f_t(x_i))^2+\Omega(f_t)+constant=\sum_{i=1}^n[-2(y_i-\hat{y_i}^{(t-1)})f_t(x_i)+f_t(x_i)^2]+\Omega(f_t)+constant$
一般情况下，我们将损失函数的泰勒展开到二阶：
$obj^{(t)}=\sum_{i=1}^n[l(y_i,\hat {y_i}^{(t-1)})+g_if_t^2(x_i)+1/2h_if_t^2(x_i)]+\Omega(f_t)+constant$
删除常量后可得，
$\sum_{i=1}^n[g_if_t^2(x_i)+1/2h_if_t^2(x_i)]+\Omega(f_t)$

4. 正则化

正则化的目的是为了预防模型过拟合，一般思路是防止模型参数太多，即，模型太复杂。在本模型中，复杂度包括树的结构以及叶子节点的个数.
首先定义，一棵树有T个叶子节点，这T个叶子节点的值组成了一个T维向量w，q（x）是一个映射，用来将样本映射成1到T的某个值。q(x)其实是CART树的结构， $w_{q(x)}$ 是这棵树对样本x的预测值。
有了这个定义，xgboost就可以使用如下的正则化项
$\Omega(f)=\gamma T+\frac{1}{2}\lambda\sum_{j=1}^{T}w_j^2$
这里的 $\lambda$ 和 $\gamma$ 越大，越希望获得结构简单的树，因此对于相对叶子节点较多的树的惩罚越大。

5.代码

import xgboost as xgb
dtrain = xgb.DMatrix('demo/data/agaricus.txt.train')
dtest = xgb.DMatrix('demo/data/agaricus.txt.test')
param = {'max_depth':2, 'eta':1, 'silent':1, 'objective':'binary:logistic' }
num_round = 2
bst = xgb.train(param, dtrain, num_round)
preds = bst.predict(dtest)

SayItClear

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
XGBoost

1. 原理xgboost代表“Extreme Gradient Boosting”，是对gradient boosting的优化，其原理还是基于GradientBoost，他的创新之处在于使用了二阶导数和正则项。xgboost的基学习器为CART。2.优化函数xgboost是加法模型，其结果是多个CAET树的结果的和，表示为:yi^=∑k=1Kfk(xi),fk∈F\hat{y_i}=\s...
复制链接

扫一扫