GBDT推导

最新推荐文章于 2022-09-12 21:44:24 发布

Xafter0

最新推荐文章于 2022-09-12 21:44:24 发布

阅读量1.4k

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Xafter0/article/details/82217014

版权

机器学习专栏收录该内容

14 篇文章 0 订阅

订阅专栏

给定样本集合\(\{(x_i,y_i)|i=1,\cdots,N\}\),对于分类或者回归有不同的损失函数，假设在某个样本\(i\)上的损失函数为

$$L(y_i,F(x_i))$$

其中F是学习到的决策函数。

在GBDT中F是一簇函数的加权和，即

$$F=\sum_{i=1}^m \gamma_i f_i$$

对于所有的样本，gbdt的损失函数为

$$\sum_{i=1}^N L(y_i,F(x_i))$$

记\(F_j = \sum_{i=1}^j \gamma_j f_j\),采用贪心的策略

$$F_j = F_{j - 1} + \mathop{argmin}_{f_j}\sum_{i=1}^N L(y_i,F_{j-1}(x_i) + f_j(x_i))$$

借助梯度下降的思想，对后面一项进行一阶泰勒展开

$$\sum_{i=1}^N L(y_i,F_{j-1}(x_i) + f_j(x_i)) \approx \sum_{i=1}^N L(y_i,F_{j-1}(x_i)) + \sum_{i=1}^N g_i f_j(x_i)$$

则可取

$$f_j(x_i) = -\gamma_j g_i$$

因此我们可以通过用CART来先拟合\(g_i\)再通过线性搜索得到\(\gamma_j\)，记拟合得到的基函数为\(g_i(x_i)\)。

$$\gamma_j = \mathop{argmin}_{\gamma_j}\sum_{i=1}^N L(y_i,F_{j-1}(x_i) - \gamma_j g_i(x_i))$$

由于在建立CART的时候每个样本都被映射到了一个固定的叶子节点，可以在每个叶子节点取最优从而得到叶子节点的取值,对于叶子节点\(m\)所对应的样本集\(R_{jm}\)

$$\gamma_{jm}=\mathop{argmin}_{\gamma_{jm}}\sum_{x_i\in R_{jm}} L(y_i,F_{j-1}(x_i) + \gamma)$$

在防止过拟合方面一般采用控制叶子节点的数目，控制树的深度，每一步对样本进行随机采样，使用衰减因子降低每一棵树的影响。

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。