集成算法之GBDT和xgboost

最新推荐文章于 2023-06-08 00:23:53 发布

Jerry_Chang31

最新推荐文章于 2023-06-08 00:23:53 发布

阅读量346

点赞数 2

分类专栏：机器学习算法文章标签：算法 python 机器学习

本文链接：https://blog.csdn.net/Jerry_Chang31/article/details/103852872

版权

本文详细介绍了xgboost和GBDT这两种集成算法的思想、目标函数优化及区别。xgboost是通过不断添加树模型，优化目标函数来拟合残差，其目标函数包括训练误差和正则化项。它使用泰勒展开优化，支持特征子采样和列采样以防止过拟合。GBDT则基于CART树，通过负梯度方向拟合残差，通过迭代构建多个弱分类器。xgboost在GBDT的基础上增加了二阶导数信息、正则项和并行计算等优化。

摘要由CSDN通过智能技术生成

大家知道，我们在进行建模时，会求解一个目标函数；目标函数又称代价函数，在机器学习中普遍存在，一般形式为：
$obj(\theta)=L(\theta)+\Omega(\theta)$ ；
其中：
$L(\theta)$ 为训练误差，衡量模型在训练集上的表现；
$\Omega(\theta)$ 是正则化惩罚，衡量模型的复杂度。

训练集误差： $L=\sum_{i=1}^{n}l(y_i,\hat{y_i})$
square loss: $l(y_i,\hat{y_i})=(y_i-\hat{y_i})^2$
logistic loss： $l(y_i,\hat{y_i})=y_iln(1+e^{-\hat{y_i}})+(1-y_i)ln(1+e^{\hat{y_i}})$

正则化惩罚：
L2 norm： $\Omega(w)=\lambda||w||^2$
L1 norm(lasso)： $\Omega(w)=\lambda||w||$

机器学习实际上就是在给定的训练集上学习模型参数：优化训练误差使模型具有预测性；优化正则化让模型更简单，使预测更加稳定，降低过拟合风险。

一、xgboost

XGBoost是boosting算法的其中一种。Boosting算法的思想是将许多弱分类器集成在一起形成一个强分类器。因为XGBoost是一种提升树模型，所以它是将许多树模型集成在一起，形成一个很强的分类器。而所用到的树模型则是CART回归树模型。

xgboost算法思想就是不断地添加树，不断地进行特征分裂来生长一棵树，每次添加一个树，其实是学习一个新函数，去拟合上次预测的残差。当我们训练完成得到k棵树，我们要预测一个样本的分数，其实就是根据这个样本的特征，在每棵树中会落到对应的一个叶子节点，每个叶子节点就对应一个分数，最后只需要将每棵树对应的分数加起来就是该样本的预测值。

xgboost目标函数objective： $\sum_{i=1}^{n}l(y_i,\hat{y_i})+\sum_{k=1}^{k}\Omega(f_k)$

1、算法思想：

start from constant prediction, add a new function each time
$\hat y^{(0)}=0$
$\hat y^{(1)}=f_1(x_i)=\hat y_i^{(0)}+f_1(x_i)$
$\hat y^{(2)}=f_1(x_i)+f_2(x_i)=\hat y_i^{(1)}+f_2(x_i)$
·······
$\hat y^{(t)}=\sum_{k=1}^{t}f_k(x_i)=\hat y_i^{(t-1)}+f_t(x_i)$

最低0.47元/天解锁文章

Jerry_Chang31

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
集成算法之GBDT和xgboost

大家知道，我们在进行建模时，会求解一个目标函数；目标函数又称代价函数，在机器学习中普遍存在，一般形式为：obj(θ)=L(θ)+Ω(θ)obj(\theta)=L(\theta)+\Omega(\theta)obj(θ)=L(θ)+Ω(θ)；其中：L(θ)L(\theta)L(θ)为训练误差，衡量模型在训练集上的表现；Ω(θ)\Omega(\theta)Ω(θ)是正则化惩罚，衡量模型的复杂...
复制链接

扫一扫

专栏目录