Gradiant Boosting Machine

最新推荐文章于 2023-06-20 10:59:20 发布

Mr_Fogg

最新推荐文章于 2023-06-20 10:59:20 发布

阅读量555

点赞数 1

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/Mr_Fogg/article/details/78024254

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

最近看了Friedman的关于梯度提升算法的论文，记录一下。
这里写图片描述

1 函数估计

在机器学习领域，算法就是利用数据去估计一个函数或就是一个“预测学习”问题。用训练数据得到一个估计的F^*(x)，这个函数将x映射到y,然后我们通过最小化一个损失函数，求出我们想要的F(x)，即：

F * = arg min F E y, x L (y, F (x)) = arg min F E x [E y L (y, F (x)) | x] (1)

$F^{*} = \arg \min_{F}E_{y,x}L(y,F(x)) = \arg\min_{F}E_{x}[E_{y}L(y,F(x))|x]\qquad(1)$
而

L(y,f(x)) $L(y,f(x))$ 包括军方误差

(y−F)2 $(y-F)^{2}$ ，binomial log-likelihood(logic regression)等
常见的套路就是限定

F(x) $F(x)$ 是某个参数化的函数空间里的一个函数

F(x;P) $F(x;P)$ ，

P={P1,P2⋯} $\mathbf{P} = \{P1,P2\cdots\}$ 是一个有限集合，这里我们只考虑加法模型

F (x; {β m, a m}) = \sum m = 1 M β m h (x; a m) (2)

$F(\mathbf{x};\{\beta_{m},\mathbf{a}_{m}\}) = \sum_{m=1}^{M}\beta_{m}h(\mathbf{x};\mathbf{a}_{m}) \qquad (2)$
公式（2）其实是很多算法的核心思想，如神经网络、支持向量机等，这里只讨论

h(x;am) $h(\mathbf{x};\mathbf{a}_{m})$ 是一个小的回归树。其中的参数包括分割变量、分割位置以及叶子节点的值。

1.1 数值优化

通常，选择一个参数化的模型令

P * = arg min P Φ (P) (3)

$P^{*} = \arg\min_{\mathbf{P}^{}}\Phi(\mathbf{P}) \qquad (3)$
这里

Φ(P)=Ex,yL(y,F(x;P)) $\Phi(\mathbf{P)} = E_{x,y}L(y,F(x;\mathbf{P})) \qquad$ (4)
最后我们求得的最优函数就是：

F∗(X)=F(x;P∗) $F^{*}(X) = F(x;\mathbf{P^{*}})$ ，也就是我们最终想要拟合出来的模型。数值优化的方法是用来求解(3)，而最终的参数P对应的结果可以表达成

P∗=∑Mm=0pm $P^{*} = \sum_{m=0}^{M}p_{m}$ 的形式。

1.2 梯度下降

梯度下降是最简单数值优化的方法之一，而对于（3）式来说，当前的梯度为

gm=gjm=[∂Φ(P)∂ pj]p=pm−1 $\mathbf{g}_{m} = {g_{jm}} = {[\frac{\partial\Phi(\mathbf{P})}{\partial \ p_{j}}]_{\mathbf{p = p_{m-1}}}}$
其中

Pm−1=∑m−1i=0pi $\mathbf{P_{m-1}} = \sum_{i=0}^{m-1}\mathbf{p}_{i}$
令

pm=−ρmgm $\mathbf{p}_{m} = -\rho_{m}\mathbf{g}_{m}$
而

ρ m = arg min ρ Φ (P m - 1 - ρ g m) (5)

$\rho_{m} = \arg\min_{\rho}\Phi(\mathbf{P}_{m-1}-\rho\mathbf{g}_{m})\qquad(5)$

用有限的数据来估计模型

按照式（1）则有

{βm,amM1}=argmin∑Ni=1L(yi,β′mh(xi;a′m))(6) $\{{\beta_{m}, \mathbf{a}_{m}}_{1}^{M}\}= \arg\min\sum_{i=1}^{N}L(y_{i},\beta_{m}^{'}h(x_{i};a_{m}^{'}))\qquad(6)$ 在这种情况确实得到的是最优解，但是复杂度太高，很难求解。所以可以选择“贪心”算法。即对于

m 1,2⋯, M $m\ 1, 2\cdots,\ M$

(β m, a m) = arg min β, a \sum i = 1 N L (y i, F m - 1 (x i) + β * h (x i; a)) (7)

$(\beta_{m}, \mathbf{a}_{m}) = \arg\min_{\beta,a}\sum_{i=1}^{N}L(y_{i},F_{m-1}(x_{i})+\beta*h(x_{i};a))\qquad(7)$
然后

Fm(x)=Fm−1(x)+βm∗h(xi;am)(8) $F_{m}(x) = F_{m-1}(x)+\beta_{m}*h(x_{i};a_{m}) \qquad(8)$
在机器学习中，函数

h(x;am) $h(x;a_{m})$ 被称为弱学习器或者基于学习器，而这个迭代的过程被称为“boosting”。给一定一个

Fm−1(x) $\mathbf{F}_{m-1}(x)$ ，我们就可以用之前所述的梯度下降法，来求解

β $\beta$ 以及

h(x;a) $h(x;a)$ .。给定特定的loss

L(y,F) $L(y,F)$ 和

h(x;a) $h(x;a)$ ，式（7)的解式很难求的。给定一个

Fm−1(x) $F_{m-1}(x)$ ,

βmh(x;am) $\beta_{m}h(x;a_{m})$ 可以被看成最佳的贪心算法，对

F∗(x) $F^{*}(x)$ 的估计。
求出损失函数在每一个训练数据的梯度，得出一个N维的向量。

- g m (x i i) = - {\partial L ( y i , F ( x i ) ) \partial F ( x i )} F (x) = F m - 1 (x)

$-g_{m}(xi_{i}) = - \{ \frac{\partial L(y_{i},F(x_{i}))}{\partial F(x_{i})}\}_{F(x) = F_{m-1}(x)}$
但是这样求出来的梯度不能泛化的其他的数据上。一个方法是选择一个

h(x;am) $h(x;a_{m})$ 使得它求得的

hm={h(xi;am)} $h_{m} = \{h(x_{i};a_{m})\}$ 尽可能的与

−gm $-g_{m}$ 平行

a m = arg min \sum a, β [- g m (x i) - β h (x i; a)] 2

$\mathbf{a}_{m} = \arg\min\sum_{a,\beta}[-g_{m}(x_{i})-\beta h(x_{i};a)]^{2}$
求出a参数向量之后，就可以求出另外一个参数

β m = arg min \sum i = 1 N l (y i, F m - 1 (x i) + β h (x i; a m))

$\beta_{m} = \arg\min\sum_{i=1}^{N}l(y_{i}, F_{m-1}(x_{i})+\beta h(x_{i};\mathbf{a}_{m}))$
然后就可以更新

Fm(x)=Fm−1(x)+βmh(x;am) $F_{m}(x) = F_{m-1}(x) +\beta_{m}h(x;a_{m})$

伪代码如下：
这里写图片描述

Mr_Fogg

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Gradiant Boosting Machine

最近看了Friedman的关于梯度提升算法的论文，记录一下。 1 函数估计在机器学习领域，算法就是利用数据去估计一个函数或就是一个“预测学习”问题。用训练数据得到一个估计的F*(x)，这个函数将x映射到y,然后我们通过最小化一个损失函数，求出我们想要的F(x)，即： F∗=argminFEy,xL(y,F(x))=argminFEx[EyL(y,F(x))|x](1)F^{*} = \arg
复制链接

扫一扫

专栏目录