学习笔记 6-GDBT

最新推荐文章于 2024-07-21 13:38:21 发布

prinf("Hello World")

最新推荐文章于 2024-07-21 13:38:21 发布

阅读量206

点赞数

文章标签：算法深度学习机器学习人工智能

本文链接：https://blog.csdn.net/qq_39484341/article/details/105687790

版权

ML 学习笔记 6-GDBT - 1

最近在看关于XGboost的内容。其中非常喜欢作为面试题的内容就是XGboost和GDBT的比较。因此需要先看看GDBT。李航的书里面的GDBT的内容细节不是很多，因此还是找找GDBT的出处。

读完之后还是很有收获的。

有关 GDBT 的文章，都会提到说 GDBT 是通过最速下降法来优化的。实际上，最速下降法就是梯度下降法，这个可以参数 wikipedia 中的解释

Gradient descent is also known as steepest descent

这一个就是我们经常在用的梯度下降法，假设损失函数为 $L (y, F (x)))$ 。如果这个函数 $F (x)$ 是参数是，那么就可以表示为 $F(x;\theta)$

我们通过梯度下降的方法优化这个参数。

$\hat{\theta} = \theta_M = \theta_0 + \eta_1 g_1 + \eta_2 g_2 + \dots + \eta_M g_M$

上面的推导是总体版本的，而要得到经验版本只需要将取期望 $\mathbb{E}$ 改成对样本求平均 $\frac{1}{N} \sum_{i=1}^{N}$ 就可以了

上面是 $F (x)$ 是参数模型的情形。如果 $F (x)$ 是非参数模型，就不能用上面的方式来求了。不过还是有解决方法的。

对于 $F (x)$ 是参数模型的情况，如果固定一个 x，则 $F (x)$ 是固定的，因此可以看做是一个“参数”。通过这种方式，我们可以将一个非参数模型 $F (x)$ 看做有许多个参数 $F (x)$ ，其中 $\in domF$ 。

我们希望最小化的是 $\mathbb{E}L(Y, F(x)))$ ，注意这里的期望是对联合分布 $(X, Y)$ 取期望。而当固定 $X = x$ 时，联合分布也就变成了条件分布，即我们固定 $x$ 后，希望最小化的函数变成了

$\mathbb{E} [L(Y, F(x))|x] \tag{1}$

注意，这里的期望 $\mathbb{E}[\cdot | x]$ 表示的是对 $Y ∣ X = x$ 取的期望，即在 $X = x$ 的条件下对 $Y$ 求期望。

因此，我们可以继续使用梯度下降法来优化上面的条件期望

$F_0(x) = \mathop{\arg\min_c} \mathbb{E} [L(Y, c)|x]$

关注