09 集成学习 - XGBoost公式推导

最新推荐文章于 2024-02-22 16:49:34 发布

weixin_33994444

最新推荐文章于 2024-02-22 16:49:34 发布

阅读量123

点赞数

文章标签：人工智能数据结构与算法

原文链接：https://yq.aliyun.com/articles/673608

版权

08 集成学习 - XGBoost概述

根据上面的知识对XGBoost公式推导

回顾: 第t次迭代后，模型的预测值= t-1次模型的预测值+第t棵树的预测值。

目标函数可以写成：

回顾泰勒公式：

泰勒公式

将误差函数在yi^ ^(t-1)处进行二阶泰勒展开。即对原损失函数进行泰勒展开，yi是定值，y^t是变化量，即泰勒公式中的Δx。
然后将y_i^t展开: y_i^t = L( y^ _i^t-1 + f_t(x))

原始损失函数左，转化为右边的公式，再做泰勒展开

至此，我们使用了一个二阶的泰勒展开公式，代表了原有的损失函数。这是一个近似值。
g_i ：第i个观测值在t-1个模型下的一阶偏导数的值。

将损失函数中所有的常数项去掉：

将函数f和正则项代入公式得到以下公式：
使用贪心算法计算得: (前t-1棵树已经是定值了)

最后求上面这个loss函数最小时的最优模型即可。

定义每个叶子节点 j 上的样本集合为 I_j

解释这个式子，我们回到最初的一张图来理解：
j=1时，i=男孩；
j=2时，i=女孩；
j=3时，i=爷爷、奶奶、妈妈；
I_j 就是包含了上面三项的样本集合。

将样本累加操作转换为叶子节点的操作

最终目标函数

如果__树的结构确定__(q函数确定)，为了使目标函数最小，可以令导数为0，可以求得最优的w，将w代入目标函数，可以得到__最终的损失__为：

下面看个图来理解上面的公式，损失函数越小，我们的树形结构越好：

weixin_33994444

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。