梯度提升（Gradient Boosting ）

最新推荐文章于 2024-06-11 14:17:34 发布

-倾城之恋-

最新推荐文章于 2024-06-11 14:17:34 发布

阅读量756

点赞数

分类专栏：统计优化机器学习

本文链接：https://blog.csdn.net/P081513083/article/details/104181686

版权

机器学习同时被 3 个专栏收录

37 篇文章 0 订阅

订阅专栏

统计

23 篇文章 0 订阅

订阅专栏

优化

12 篇文章 0 订阅

订阅专栏

梯度提升方法的特点在于损失函数比较复杂，难以优化。
一般的提升方法的损失函数比较简单。
比如Adaboost中，提升模型是多个弱基学习器的加权和，当基于指数损失函数和前向分步算法优化模型时，最终推导结果相当于：每一步仅需要学习当前基学习器使得所有样本的加权损失最小。
或者在一般提升回归树中，提升模型是多个弱基学习器的和，当基于平方误差损失函数和前向分步算法优化模型时，最终推导结果相当于于：每一步仅需学习当前基学习器使其输出为上一步模型的残差。
而在损失函数比较复杂时，难以优化时，可以利用泰勒展示将损失函数近似展开。
$C(\theta_M)=L(y,f_M(x))$
$f_M(x)=f_{M-1}(x)+T(x;\theta_M)$ 。
$C(\theta_M)=L(y,f_{M-1}(x)+T(x;\theta_M))$
当把代价函数 $C$ 看做 $f_{M}(x)$ 的函数时，记 $T_M=T(x;\theta_M)$ ，则：
$C(f_{M}(x))=C(f_{M-1}(x)+T_M)$
泰勒近似展开得：
$C(f_{M-1}(x)+T_M) = C(f_{M-1}(x))+\frac{\partial C}{\partial f}_{f=f_{M-1}(x)}T_M$

此时 $C(f_{M-1}(x))$ 和 $\frac{\partial C}{\partial f}_{f=f_{M-1}(x)}$ 都已知，如果要 $C$ 下降最快，则令：
$T_M=-\alpha\frac{\partial C}{\partial f}_{f=f_{M-1}(x)}$
即 $T_M$ 与损失函数梯度反向即可。 $\alpha$ 为学习率。

https://blog.csdn.net/youhuakongzhi/article/details/94488888
https://www.cnblogs.com/zhubinwang/p/5170087.html
https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingRegressor.html

-倾城之恋-

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
梯度提升（Gradient Boosting ）

1、梯度提升梯度提升方法的特点在于损失函数比较复杂，难以优化。一般的提升方法的损失函数比较简单。比如Adaboost中，提升模型是多个弱基学习器的加权和，当基于指数损失函数和前向分步算法优化模型时，最终推导结果相当于：每一步仅需要学习当前基学习器使得所有样本的加权损失最小。或者在一般提升回归树中，提升模型是多个弱基学习器的和，当基于平方误差损失函数和前向分步算法优化模型时，最终推导结果相当...
复制链接

扫一扫

专栏目录