首先要知道booster中四个经典模型,gbdt,lightgboost,xgboost,catboost,具体区别自己百度,各有优缺点。
公式
xgboost 目标函数
目标函数就是损失相关,一般模型都是要使目标函数最小化。
xgboost 目标函数由训练损失和正则化项两部分组成,目标定义如下:
前半部分为训练损失,后半部分为树的复杂度
是损失函数。
是真实值,
是预测值,i表示第i个样本。
一般常见的方差,标准差,平均标准差之类的就是损失函数的一种,就是衡量真实值和预测值之间的差距。
比如:
xgboost 是一个加法模型,拟合残差相加得到结果,booster方法都这样,booster是啥自己百度。
最后的结果是由k棵树拟合的结果相加组成;
先分析那个
,就是第k棵树,
一个预测的目标值就是 
正则化项就是计算k棵树的复杂度,当作惩罚因子,加入目标函数中,就出现了
这就是目标函数的后半段,防止模型过拟合。
求目标函数一般都是求目标函数最小化。
xgboost 是一个集成算法,一般表示为
提升树,是需要每加一棵树,效果都会提升。
从0棵树开始,逐渐增加树,对于样本i来说,用公式表达就是:
没有树的样本i 
只用一棵树取预测样本i 
只用两棵树去预测样本i 
......
用 n棵树去预测样本i 
上面三个过程就是提升过程,表示第t轮的模型预测,结果保留第t-1次模型预测的结果,并加入一个新的函数。
作为提升,加上一个新的函数需要整体效果增加,所以加上一棵树的时候,需要使目标函数值下降。
训练过程就是要使目标函数下降的过程。
然后我们优化我们的目标函数,在每一棵树都优化时,得到以下公式:

本文介绍了XGBoost的目标函数,它由训练损失和正则化项组成,旨在最小化目标函数。通过泰勒展开公式,详细推导了目标函数的优化过程,强调了正则化项在防止过拟合中的作用。XGBoost通过逐棵优化决策树,寻找最佳分割点以最大化信息增益,实现模型提升。
最低0.47元/天 解锁文章
622

被折叠的 条评论
为什么被折叠?



